JPH047670A - 文章解析方式 - Google Patents

文章解析方式

Info

Publication number
JPH047670A
JPH047670A JP2109559A JP10955990A JPH047670A JP H047670 A JPH047670 A JP H047670A JP 2109559 A JP2109559 A JP 2109559A JP 10955990 A JP10955990 A JP 10955990A JP H047670 A JPH047670 A JP H047670A
Authority
JP
Japan
Prior art keywords
word
words
sentence
character string
dictionary
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2109559A
Other languages
English (en)
Inventor
Takayuki Oyama
大山 隆之
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2109559A priority Critical patent/JPH047670A/ja
Publication of JPH047670A publication Critical patent/JPH047670A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 〔概要〕 日本語漢字かな混じり文章を読みに変換する文章解析方
式に関し、 処理量を削減することを目的とし、 多数の単語の表記、読み及び文法情軸を格納した辞書か
らの単語と漢字かな混じり文の入力文章の文字列とを照
合し、該文字列の一部と一致するすべての単語を抽出す
る単語抽出手段と、単語候補から文法的に最も確からし
いものを選択して読み文字列を出力する文章解析部とを
有する文章解析方式において、肢単語抽出手段により抽
出された単語の中から、予め指定された単語の一部と一
致する単語だけを単語候補から削除し、該予め指定され
た単語以外の抽出された単語を単語候補として該文章解
析部へ入力する単語候補削減部を設けるよう構成し、ま
た、前記単語抽出手段により抽出された単語の中に予め
定めた特定の単語があるとき、前記入力文章の文字列を
該特定の単語の前後の文字列に分割し、該分割された文
字列を前記辞書とは別に設けた辞書からの単語と照合し
て前記単語候補を抽出する単語候補作成手段を、前記単
語候補削減部に代えて設けるよう構成する。
〔産業上の利用分野〕
本発明は文章解析方式に係り、特に日本語漢字かな混じ
り文章を読みに変換する文章解析方式に関する。
日本語漢字かな混じり文章が入力された場合に、この文
章を解析して音声で読みあげる音声合成装置では、単語
辞書を用いて入力文章と照合し、入力文章に一致する複
数の単語の組み合わせの中から文法的に最も確からしい
ものをチエツクして選択するから、チエツクに要する処
理量を削減することが必要とされる。
〔従来の技術〕
第6図は従来の文章解析方式の一例のブロック図を示す
。漢字かな混じり文章はコードの形態で文章入力部lに
入力され、ここで−時蓄積された後、一致検出部2に入
力される。一方、3は辞書で、予め多数の単語について
夫々表記、読み、文法情報を格納した国語辞典のような
ものである。
一致検出部2は辞書読み出し部4により辞I3から読み
出された単語と入力文章とを照合し、入力文章に一致す
る複数の単語の組み合わせを検出する。文章解析部5は
この検出された単語の組み合わせの中から、例えば長い
単語を優先して選択したり、又は単語間の品詞接続可能
テーブルを持っていてそのテーブルに基づいて単語を選
択し、カタカナの読み文字列を出力する。
〔発明が解決しようとする課題〕
しかるに、上記の従来方式では単語の組み合わせの数が
極めて多くなり、そのチエツクに要する処理量が膨大に
なってしまう。
例えば、第7図に示す如く、「北海道から丸角までの旅
行ノなる例文について説明すると、この場合は一部に過
不足なく一致する単語例は同図に示す如くになる。すな
わち、[北海道」という部分では第8図(B)、(C)
及び第7図に示す如く、「北」、「北海」、「北海道」
、[海(読みは“うみ”)J、[海(読みは“かい”)
」。
「海道J、  r道(読みは“みち”)J、r道(読み
は“どう”)」、の8通りある。以下、上記と同様にし
て単語例の組み合わせを求めると、第7図及び第8図(
A)に示す如(、[からJの部分で3通り、[丸角Jの
部分で2通り、「まで」の部分で4通り、モして「旅行
」の部分で2通りある。従って、この例文の場合の単語
の組み合わせの数は全体では各単語 の組み合わせの積
である384  (=8X3X2X4X2)通りにもな
る。
この例文は、比較的簡単に思いつく単語を並べたもので
、実際にはこの数倍の単語が抽出されるため、全体とし
ての組み合わせか何万通りにもなるのが一般的であり、
よって従来方式では解析対象となる単語処理量が極めて
多(、解析に時間を要するという問題かある。
本発明は上記の点に鑑みなされたもので、処理量を削減
し得る文章解析方式を提供することを目的とする。
〔課題を解決するための手段〕
第1図(A)は請求項】記載の本発明の原理構成図を示
す。本発明は単語抽出手段10及び文章解析部30を有
する文章解析方式において、単語候補削減・部20を設
けた点に特徴を有する。単語抽出手段10は多数の単語
の表記、読み及び文法情報を格納した辞書からの単語と
漢字かな混じり文の入力文章の文字列とを照合し、文字
列の一部と一致するすべての単語を抽出する。
また、単語候補削減部20は上記抽出された単語の中か
ら予め指定された単語の一部と一致する単語だけを単語
候補の中から削除し、予め指定された単・語以外の抽出
された単語を単語候補として文章解析部30へ入力する
。文章解析部30は単語候補から文法的に最も確からし
いものを選択して読み文字列を出力する。
次に請求項2記載の発明について第1図(B)の原理構
成図と共に説明する。本発明は単語候補作成手段40を
設けた点に特徴を有する。単語候補作成手段40は入力
文章中に特定の単語があるとき、入力文章の文字列をそ
の単語の前後の文字列に分割することと、その分割され
た文字列を、単語抽出手段10で用いる辞書とは別の辞
書からの単語と照合して単語候補を抽出することを行な
う。
〔作用〕
漢字かな混じり文章の中で、表記文字列の長いもの(例
えば4文字以上の漢字熟語や諺など)や特殊な漢字を使
っている単語は、単に文字列一致だけで同定しても殆ど
の場合正しい肘定結果となる。本発明はこの点に着目し
たもので、第1図(A)の請求項1記載の発明では、上
記の表記文字列の長いものや特殊な漢字を使っている単
語を予め特定の単語として定め、入力文章の文字列中に
この特定の単語と一致する単語を、単語候補削減部20
で削減する。これにより、文章解析部30で解析の対象
となる単語候補からは上記特定の単語の一部と一致する
単語が除外される。
また、第1図(B)の請求項2記載の発明では、上記特
定の単語と一致する単語が入力文章の文字列中にあると
検出したときは、単語候補作成手段40によりその特定
の単語を除き、その特定の単語の前後の文字列の夫々に
ついて単語同定を行なう。従って、単語の同定を行なう
単語の組み合わせの数は減少する。
〔実施例〕
第2図は本発明の第1実施例のブロック図を示す。同図
中、第1図(A)と同一構成部分には同一符号を付しで
ある。第2図において、漢字かな混じり文章である入力
文章は、コードの形態で、バッファとしての文章入力部
11を通して一致検出部12に入力され、ここで辞書1
3から辞書読み出し部14で読み出された単語と照合さ
れ、単語抽出が行なわれる。ここで、辞書13には多数
の単語の表記、読み及び文法情種が格納されている。一
致検出部12はこの辞書13から辞書読み出し部14で
読み出された単語を入力文章の文字列と照合し、入力文
字列の一部と一致する各単語に対して、その単語の入力
文字列上での開始位置KSiと終了位置KE i、予め
指定された特定の単語であることを示すフラグFi及び
削除すべき単語か否かを示すフラグDiを付加する。
例えば、第7図に示した[北海道から丸角までの旅行」
なる文章が入力されたものとすると、致検出部12は第
3図(A)に示す如く入力文章の文字列の各単語の位置
を番号で表わし、同図(B)に示す如く、部分一致した
単語を検出すると共に、開始位置KS i、終了位置K
E i、指定単語か否かを示すフラグFi、削除すべき
単語か否かを示すフラグDiを付加する。なお、指定単
語であるときはFiの値はNJであり、削除すべき単語
であるときはDiの値は[1jである。
このようにして検出された単語は単語候補削減部20へ
入力されて、第4図のフローチャートに従って単語削減
処理される。第4図において、まず単語番号I(これは
第3図(B)の最左欄に示す値であり、一致検出部12
で検出された単語の通し番号である)に初期値“1”が
代入され(ステップ51)、続いてフラグDi(ここで
はり、)の値が“l”か否か判定され(ステップ52)
、通常は“0”であるから続いてフラグFi(ここでは
F、)の値が“1”か否か判定される(ステップ53)
1番目の単語である[北Jは第3図に示したようにDi
=D、−0,Fi=F+ =Oであるから、ステップ5
3からステップ62へ進み、単語番号■がl加算されて
次の単語番号の値とされた後、その単語番号I(この時
点ではI=2)が一致検出部12で検出された総単語数
N(第3図の例ではN=24)より大であるか否か判定
され(ステップ63)、I≦Nのときにはステップ52
へ戻る。
2番目の単語である「北海」は第3図に示したように、
D i=D* =0.F i =Ft =0であるから
、ステップ52.53.62及び63を経て再びステラ
ブ52へ戻る。
3番目の単語である[北海道」は第3図に示したように
Di=Ds =0.F 1=Fs =1であるから、ス
テップ52.53を経てステップ54へ進み、変数Jの
値が“1”とされた後、ステップ55でJの値がl”か
否か判定され、“1″のときはステップ60へ飛んでJ
の値が“1″だけインクリメントされ、ステップ61で
そのJの値がNと大小比較される。
J≦Nのときは再びステップ55へ戻り、J=1か否か
判定される。今度はJ=2であるから、ステップ56へ
進みフラグDjの値が“1″か否か判定される。前記し
たように、この時点ではJ=2であり、またDJ”D!
 =0であるから、次にステップ57へ進み、KSi≦
KSj≦KEiの不等式を満足するか否かの判定が行な
われる。
この時点ではKS i”KSs =l、KE 1=KE
a =3.KS j=Kst =tであり、上記の不等
式を満足するから、ステップ53へ進んでDjの値を1
にセットし、次いでJの値を更に“1”インクリメント
しくステップ60)、J≦Nの判定(ステップ61)を
経てステップ55へ戻る。
今度はJ=3であるから、ステップ55へ進み、D、の
値が1″でないからステップ57へ進んで前記不等式を
満足するか否かの判定が行なわれる。この時点ではKS
 1=Kss = 1.KE 1=KE、=3.KSj
=KSs =1であるから上記不等式を満足する。上記
と同様にして再びステップ58.60.61.55.5
6を経てステップ57へ戻る。この時点では第3図より
KSi=KSs =1.KEi=KEa =3.KSj
=KS4=2となるから、上記不等式を満足する。以下
、上記と同様の動作が繰り返されJ=9になった時点で
上記の不等式を満足しなくなるため、ステップ57から
59へ進む。
ステップ59ではKSi≦KEj≦KEiなる不等式を
満足するか否かの判定が行なわれる。この不等式を満足
する場合はステップ58へ進み、満足しない場合はステ
ップ60へ進む。このようにして、ステップ55〜61
の処理により1番目の単語に対して3番目の単語が含ま
れているか否かが検出され、含まれている場合はその3
番目の単語のフラグDJが“1″とされる。
JPNになると、今度はIの値が再びl”インクリメン
トされ(ステップ62)、INNの判定が行なわれる(
ステップ63)、このようにして、すべての単語につい
て上記の処理がなされると処理終了となる(ステップ6
4)。
従って、この単語候補削減部20により、フラグFiが
“1“である特定の単語[北海道Jと一部でも一致する
単語の削除フラグDiの値は“1”とされ、文章解析部
30での解析の対象とならない。文章解析部30は従来
の文章解析部5と同様に入力単語候補から最も確からし
いものを選択する。
上記の入力文章中、本実施例では[北海道Jという特定
の単語が解析の対象とならないため、解析の対象となる
単語の組み合わせは「北海道」の部分の8通りの組み合
わせを除いた組み合わせ、すなわち従来の1/8倍の4
8通りと大幅に低減することができる。これにより、従
来に比べて文章解析部30での処理量が大幅に削減され
、文章解析時間を短縮できる。
次に本発明の第2実施例について第5図のブロック図と
共に説明する。同図中、第1図(B)及び第2図と同一
構成部分には同一符号を付し、その説明を省略する。第
5図において、一致検出部15は入力文章の文字列の中
から第一辞書16からの単語と一致する単語を検出する
。第一辞書10には予め表記文字列の長いものや特殊な
漢字を使っている単語など特定の単語だけが格納されて
いる。
文章分割部41は一致検出部15からの入力文章の単語
のうち、一致検出された旨のフラグが付加されている単
語の前の文字列と後の文字列に分割する。例えば、第7
図に示した例文の場合、致検出された単語が「光用Jで
あるものとすると、文章分割部41は[北海道からjと
いう文字列と「までの旅行」という文字列に分割する。
分割されたこれらの文字列は一致検出部42に入力され
、ここで辞書読み出し部44で読み出された第二辞書4
3からの単語と照合が行なわれる。
ここで、第二辞書43は従来の辞書3と全く同一内容と
されている。すなわち、一致検出部42゜第二辞書43
.辞書読み出し部44及び文章解析部30よりなる構成
は第6図に示した従来方式の構成と同一であり、分割さ
れた文字列の夫々に対して従来と同様の方法で文章解析
が行なわれ、読み文字列に変換される。
本実施例によれば、入力文章の文字列中、「北海道から
」という部分と、[までの旅行」という部分の2つの文
字列だけが文章解析されるため、前者が24通り、後者
が8通りの単語の組み合わせが得られるから、全体の単
語の組み合わせは32 (=24+8)通りとなり、従
来の384通りに比べ大幅に単語の組み合わせ数を低減
することができる。従って、本実施例も第1実施例と同
様の特長を有する。
なお、上記の各実施例において、削除した、又は一致し
た特定の単語は、出力される読み文字列中、入力文章の
文字列の位置に対応する位置に挿入されて出力されるこ
とは勿論である。
〔発明の効果〕
上述の如く、本発明によれば、特定の単語の一部と一致
する単語候補を削除するか、又は特定の単語を除きその
前後の文字列に分割して単語同定を行なうようにして、
単語同定を行なう単語の組み合わせ数を削減するように
しているため、文章解析の処理を従来に比べ削減するこ
とができ、よって文章解析の処理時間を短縮することが
できる等の特長を有するものである。
【図面の簡単な説明】
第1図は本発明の原理構成図、 第2図は本発明の第1実施例のブロック図、第3図は一
致検出部の処理説明図、 第4図は単語候補削減部の処理手順の一例の説明用フロ
ーチャート、 第5図は本発明の第2実施例のブロック図、第6図は従
来方式の一例のブロック図、第7図は例文とその一部に
一致する単語例を示す図、 第8図は単語の組み合わせの例の説明図である。 16は第一辞書、 20は単語候補削減部、 30は文章解析部、 40は単語候補作成手段、 41は文章分割部、 43は第二辞書 を示す。 特許出願人 富 士 通 株式会社 図において、 10は単語抽出手段、 12.15.42は一致検出部、 13は辞書、 第3図

Claims (2)

    【特許請求の範囲】
  1. (1)多数の単語の表記、読み及び文法情報を格納した
    辞書からの単語と漢字かな混じり文の入力文章の文字列
    とを照合し、該文字列の一部と一致するすべての単語を
    抽出する単語抽出手段(10)と、 単語候補から文法的に最も確からしいものを選択して読
    み文字列を出力する文章解析部(30)とを有する文章
    解析方式において、 該単語抽出手段(10)により抽出された単語の中から
    、予め指定された単語の一部と一致する単語だけを単語
    候補から削除し、該予め指定された単語以外の抽出され
    た単語を単語候補として該文章解析部(30)へ入力す
    る単語候補削減部(20)を設けたことを特徴とする文
    章解析方式。
  2. (2)前記単語抽出手段(10)により抽出された単語
    の中に予め定めた特定の単語があるとき、前記入力文章
    の文字列を該特定の単語の前後の文字列に分割し、該分
    割された文字列を前記辞書とは別に設けた辞書からの単
    語と照合して前記単語候補を抽出する単語候補作成手段
    (40)を、前記単語候補削減部(20)に代えて設け
    たことを特徴とする請求項1記載の文章解析方式。
JP2109559A 1990-04-25 1990-04-25 文章解析方式 Pending JPH047670A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2109559A JPH047670A (ja) 1990-04-25 1990-04-25 文章解析方式

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2109559A JPH047670A (ja) 1990-04-25 1990-04-25 文章解析方式

Publications (1)

Publication Number Publication Date
JPH047670A true JPH047670A (ja) 1992-01-13

Family

ID=14513306

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2109559A Pending JPH047670A (ja) 1990-04-25 1990-04-25 文章解析方式

Country Status (1)

Country Link
JP (1) JPH047670A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7234622B2 (en) 2001-09-28 2007-06-26 Max Co., Ltd. Stapler, cartridge for stapler, and system having the stapler and cartridge in combination

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7234622B2 (en) 2001-09-28 2007-06-26 Max Co., Ltd. Stapler, cartridge for stapler, and system having the stapler and cartridge in combination

Similar Documents

Publication Publication Date Title
US6401061B1 (en) Combinatorial computational technique for transformation phrase text-phrase meaning
KR100481598B1 (ko) 복합 형태소 분석 장치 및 방법
US7328404B2 (en) Method for predicting the readings of japanese ideographs
CN107229611B (zh) 一种基于词对齐的历史典籍分词方法
KR100288144B1 (ko) 한글로 표기된 외래어 코드화 방법 및 그를 이용한 검색 방법
JPS5892063A (ja) イデイオム処理方式
JPH047670A (ja) 文章解析方式
KR940022311A (ko) 기계번역장치 및 방법
JP2004206659A (ja) 読み情報決定方法及び装置及びプログラム
KR100347055B1 (ko) 한국어 형태소 분석방법
JPH01114976A (ja) 文書処理装置の辞書構造
JPS60225273A (ja) 単語検索方式
JP3508312B2 (ja) キーワード抽出装置
JPH05250403A (ja) 日本文単語解析方式
JPH04188364A (ja) 日本文固有用語抽出装置
JPS62180462A (ja) 音声入力かな漢字変換装置
JPS62247480A (ja) 文字認識後処理方式
JPH08305698A (ja) 自然語解析方法及び装置
JPH0262668A (ja) 文章情報解析技法を用いた文章情報検索方式
Diaconescu et al. A rule-based approach to generating large phonetic databases for Romanian results of the AFLR project
JPS6132167A (ja) カナ漢字変換処理装置
JPH0778155A (ja) 文書認識装置
JP2008299777A (ja) 多言語単語分類装置及び多言語単語分類プログラム
JPS63187299A (ja) 単語つづり―発音記号変換装置
KR19980036108A (ko) 개념기반 다국어 번역시스템의 문법 자동수정 방법