JP6379666B2 - Document analysis apparatus, document analysis program, and document analysis method - Google Patents
Document analysis apparatus, document analysis program, and document analysis method Download PDFInfo
- Publication number
- JP6379666B2 JP6379666B2 JP2014105221A JP2014105221A JP6379666B2 JP 6379666 B2 JP6379666 B2 JP 6379666B2 JP 2014105221 A JP2014105221 A JP 2014105221A JP 2014105221 A JP2014105221 A JP 2014105221A JP 6379666 B2 JP6379666 B2 JP 6379666B2
- Authority
- JP
- Japan
- Prior art keywords
- noun phrase
- document
- syntax
- unit
- phrase candidate
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000004458 analytical method Methods 0.000 title claims description 94
- 238000000034 method Methods 0.000 claims description 93
- 238000000605 extraction Methods 0.000 claims description 66
- 238000013519 translation Methods 0.000 claims description 43
- 238000012545 processing Methods 0.000 claims description 33
- 239000000284 extract Substances 0.000 claims description 24
- 238000004364 calculation method Methods 0.000 description 50
- 238000011156 evaluation Methods 0.000 description 16
- 238000010586 diagram Methods 0.000 description 10
- 230000006870 function Effects 0.000 description 9
- 241000894006 Bacteria Species 0.000 description 6
- 239000002689 soil Substances 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 2
- 230000014509 gene expression Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 239000002184 metal Substances 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Landscapes
- Machine Translation (AREA)
Description
本発明は、文書解析装置、文書解析プログラム及び文書解析方法に関する。 The present invention relates to a document analysis apparatus, a document analysis program, and a document analysis method.
従来、中国語などの品詞による語形変換がない言語を機械翻訳する場合、品詞の曖昧性により、名詞句を一つの単位として認識できず、誤った翻訳がなされる場合があった。これに対し、最近では、機械翻訳の際に、解析済コーパスデータベースを用いた構文解析を行う技術が知られている(例えば、特許文献1参照)。 Conventionally, when a language such as Chinese that does not have a word form conversion by part of speech is machine-translated, a noun phrase cannot be recognized as one unit due to the ambiguity of the part of speech, and there is a case where an incorrect translation is performed. On the other hand, recently, a technique for performing syntax analysis using an analyzed corpus database at the time of machine translation is known (for example, see Patent Document 1).
特許文献1においては、文法規則や統計手法に基づいて文を単語ごとに切って形態素に分解し、形態素に基づいて文の構造を解析する。この解析の結果、正しい構文解析結果となりうる候補が複数存在する場合には、解析済コーパスデータベースに含まれるコーパスとの類似度に基づいて、複数の候補から正しい構文解析結果を決定する。
In
しかしながら、翻訳対象の文には様々な構造があるため、上述したようにコーパスとの類似度に基づいて構文解析を行ったとしても、正しい構文解析結果を得られない場合があった。 However, since the sentence to be translated has various structures, there is a case where a correct parsing result cannot be obtained even if the parsing is performed based on the similarity with the corpus as described above.
1つの側面では、本発明は、文における名詞句の範囲を精度よく解析することが可能な文書解析装置、文書解析プログラム及び文書解析方法を提供することを目的とする。 In one aspect, an object of the present invention is to provide a document analysis apparatus, a document analysis program, and a document analysis method that can accurately analyze a range of noun phrases in a sentence.
一つの態様では、文書解析装置は、文書内に複数回出現する単語群を名詞句候補として仮定する仮定部と、構文リストに含まれる複数の正しい構文のうち、前記名詞句候補を含む複数の文と類似する構文をそれぞれ抽出する抽出部と、前記抽出部が前記名詞句候補を含む複数の文に類似する構文を抽出できたか否かに基づいて、前記名詞句候補の仮定が正しいか否かを判断する判断部と、を備えている。
In one aspect, the document analysis apparatus includes a hypothesis unit that assumes a word group that appears multiple times in a document as a noun phrase candidate, and a plurality of correct syntaxes included in a syntax list, An extraction unit that extracts a syntax similar to a sentence, and whether the noun phrase candidate assumption is correct based on whether the extraction unit has extracted a syntax similar to a plurality of sentences including the noun phrase candidate. And a determination unit for determining whether or not.
一つの態様では、文書解析プログラムは、文書内に複数回出現する単語群を名詞句候補として仮定し、構文リストに含まれる複数の正しい構文のうち、前記名詞句候補を含む複数の文と類似する構文をそれぞれ抽出し、前記抽出する処理において前記名詞句候補を含む複数の文に類似する構文を抽出できたか否かに基づいて、前記名詞句候補の仮定が正しいか否かを判断する、処理をコンピュータに実行させる文書解析プログラムである。
In one aspect, the document analysis program assumes a group of words appearing multiple times in a document as a noun phrase candidate, and is similar to a plurality of sentences including the noun phrase candidate among a plurality of correct syntaxes included in a syntax list. To determine whether or not the assumption of the noun phrase candidate is correct based on whether or not syntax similar to a plurality of sentences including the noun phrase candidate can be extracted in the extracting process . A document analysis program that causes a computer to execute processing.
一つの態様では、文書解析方法は、仮定部が、文書内に複数回出現する単語群を名詞句候補として仮定し、抽出部が、構文リストに含まれる複数の正しい構文のうち、前記名詞句候補を含む複数の文と類似する構文をそれぞれ抽出し、判断部が、前記抽出部が前記名詞句候補を含む複数の文に類似する構文を抽出できたか否かに基づいて、前記名詞句候補の仮定が正しいか否かを判断する、処理を実行する文書解析方法である。 In one aspect, in the document analysis method, the assumption unit assumes a group of words appearing multiple times in the document as a noun phrase candidate, and the extraction unit includes the noun phrase among a plurality of correct syntaxes included in the syntax list. Each of the noun phrase candidates is extracted based on whether or not the syntax similar to a plurality of sentences including candidates is extracted, and the determination unit can extract the syntax similar to the plurality of sentences including the noun phrase candidates. This is a document analysis method for executing processing to determine whether or not the assumption is correct.
文における名詞句の範囲を精度よく解析することができる。 The range of noun phrases in sentences can be analyzed with high accuracy.
《第1の実施形態》
以下、文書解析装置としての翻訳端末の第1の実施形態について、図1〜図15に基づいて詳細に説明する。なお、本第1の実施形態の翻訳端末10は、中国語の文書を日本語に翻訳する(中日翻訳する)端末である。
<< First Embodiment >>
Hereinafter, a first embodiment of a translation terminal as a document analysis apparatus will be described in detail with reference to FIGS. The
図1には、翻訳端末10のハードウェア構成が示されている。翻訳端末10は、例えば、PC(Personal Computer)等の端末であり、図1に示すように、CPU(Central Processing Unit)90、ROM(Read Only Memory)92、RAM(Random Access Memory)94、記憶部(ここではHDD(Hard Disk Drive))96、ネットワークインタフェース97、表示部93、入力部95、及び可搬型記憶媒体用ドライブ99等を備えている。これら翻訳端末10の構成各部は、バス98に接続されている。表示部93は、液晶ディスプレイ等を含み、入力部95は、キーボードやマウス等を含む。翻訳端末10では、ROM92あるいはHDD96に格納されているプログラム(文書解析プログラムを含む)、或いは可搬型記憶媒体用ドライブ99が可搬型記憶媒体91から読み取ったプログラム(文書解析プログラムを含む)をCPU90が実行することにより、図2に示す機能が実現される。なお、図2には、翻訳端末10のHDD96等に格納されている構文リストとしての構文解析済みコーパス40も図示されている。
FIG. 1 shows a hardware configuration of the
図2には、翻訳端末10の機能ブロック図が示されている。翻訳端末10では、CPU90がプログラムを実行することで、図2に示すように、解析部50及び翻訳部52としての機能が実現されている。解析部50は、入力される翻訳対象の中国語文書(例えば図5に示すような特許文書)に含まれる各文の構文解析を行い、構文解析結果を翻訳部52に対して出力する。翻訳部52は、各文の構文解析結果に基づいて、各文を日本語に翻訳する。
FIG. 2 shows a functional block diagram of the
解析部50は、入力受付部20、仮定部としての名詞句候補抽出部22、名詞句置換部24、名詞句候補一時保存部26、整合性計算部29、構文解析部30、及び出力部34を含む。
The
入力受付部20は、翻訳対象、すなわち構文解析対象の中国語文書の入力を受け付け、名詞句候補抽出部22に対して送信する。名詞句候補抽出部22は、文書に複数回出現する複数の単語を含む単語群を名詞句候補文字列と仮定し、抽出する。なお、名詞句候補文字列として検出された単語群は、名詞句候補一時保存部26に一時保存される。ここで、名詞句候補一時保存部26は、一例として、図7(a)〜図7(c)に示すようなデータを一時保存するものとする。
The
名詞句置換部24は、名詞句候補一時保存部26に一時保存されたデータに基づいて、名詞句候補文字列を仮の意味記号で表される暫定名詞([**])で置換する。なお、暫定名詞[**]は、任意の意味を表す名詞であるものとする。
The noun
整合性計算部29は、構文解析済みコーパス40に含まれる複数の正しい構文のうち、名詞句候補文字列を含む複数の文と類似する構文をそれぞれ抽出する。また、整合性計算部29は、該抽出結果に基づいて、名詞句候補文字列が正しい名詞句であるか否かを判断する。ここで、構文解析済みコーパス40は、複数の正しい(解析済みの)構文の例を格納するものであり、図3に示すようなデータ構造を有する。具体的には、構文解析済みコーパス40は、「事例ID」、及び「名詞句を意味記号で置換した構文構造」のフィールドを有する。「名詞句を意味記号で置換した構文構造」のフィールドには、((A)(B))(C)などの表現(A〜Cは単語)により、解析済みの構文のツリー構造が格納されている。なお、事例ID=C1001の構文構造に含まれる[方法]や[土壌]という表現は、方法や土壌を意味する単語(同義/類義語)を統括して表す記号(意味記号ともいう)である。
The
構文解析部30は、整合性計算部29の判断結果に基づいて、構文解析を実行する。構文解析結果は、出力部34を介して、翻訳部52に送信される。
The
次に、本第1の実施形態の翻訳端末10において実行される処理について、図4、図6、図9、図12のフローチャートに沿って、その他図面を参照しつつ詳細に説明する。
Next, processing executed in the
図4には、翻訳端末10の解析部50において実行される処理の概要がフローチャートにて示されている。
FIG. 4 is a flowchart showing an outline of processing executed in the
図4の処理では、まず、ステップS10において、入力受付部20が、中国語文書が入力されるまで待機する。中国語文書が入力されると、ステップS12に移行し、名詞句候補抽出部22は、名詞句候補文字列抽出処理のサブルーチンを実行する。なお、本第1の実施形態では、図5に示すような特許文書が入力受付部20に入力されたものとする。図5では、説明の便宜上、特許文書に含まれる各文に対して、原文ID(Q301、Q302…)を付して示している。
In the process of FIG. 4, first, in step S10, the
ステップS12においては、図6に示すフローチャートに沿った処理が実行される。図6の処理では、ステップS40において、名詞句候補抽出部22は、文書中のテキストを文単位で抽出する。この場合、図5に示す原文IDごとに文を抽出する。
In step S12, processing according to the flowchart shown in FIG. 6 is executed. In the process of FIG. 6, in step S40, the noun phrase
次いで、ステップS42では、名詞句候補抽出部22は、文ペアを抽出する。例えば、名詞句候補抽出部22は、原文ID=Q301、Q302の文ペアを抽出する。
Next, in step S42, the noun phrase
次いで、ステップS44では、名詞句候補抽出部22が、文ペアの部分一致文字列を検出する。この場合、ステップS42で抽出した文ペアを比較し、共通する文字列部分を検出する。
Next, in step S44, the noun phrase
次いで、ステップS46では、名詞句候補抽出部22が、部分一致文字列が検出された場合において、該部分一致文字列が既に検出された文字列か否かを判断する。ここでの判断が否定された場合には、ステップS48に移行し、名詞句候補抽出部22は、名詞句候補一時保存部26に保存する。この場合、名詞句候補一時保存部26には、例えば、図7(a)〜図7(c)に示すような構造のデータが保存される。図7(a)〜図7(c)のデータは、「名詞句候補ID」、「名詞句候補文字列」、及び「出現原文ID」の各項目を有する。「名詞句候補ID」の項目には、CANDI−1、CANDI−2、…のような名詞句候補の識別情報が格納される。「名詞句候補文字列」の項目には、ステップS44で検出された部分一致文字列が格納される。「出現原文ID」の項目には、部分一致文字列が検出された文の原文IDが格納される。
Next, in step S46, the noun phrase
ステップS48の後は、名詞句候補抽出部22は、ステップS50に移行する。一方、ステップS46の判断が肯定された場合には、名詞句候補抽出部22は、ステップS49において、ステップS42で抽出された文ペアの原文IDを名詞句候補一時保存部26の対応するデータの「出現原文ID」の欄に格納する。その後は、ステップS50に移行する。
After step S48, the noun phrase
ステップS50に移行すると、名詞句候補抽出部22は、全ての文ペアを抽出したか否かを判断する。ここでの判断が否定された場合には、名詞句候補抽出部22は、ステップS42に戻り、上述したステップS42〜S50の処理・判断を繰り返す。なお、例えば、文ペアとして原文ID=Q302、Q304の文ペアが抽出された場合には、図7(a)〜図7(c)に名詞句候補文字列として示されているような部分一致文字列が検出され、名詞句候補一時保存部26に格納される。また、例えば、文ペアとして原文ID=Q304、Q305の文ペアが抽出された場合には、図7(b)、図7(c)に名詞句候補文字列として示されているような部分一致文字列が検出される。また、例えば、文ペアとして原文ID=Q306、Q307の文ペアが抽出された場合には、図7(c)に名詞句候補文字列として示されているような部分一致文字列が検出される。
In step S50, the noun phrase
その後、すべての文ペアを抽出し、ステップS50の判断が肯定されると、ステップS52に移行する。ステップS52に移行すると、名詞句候補抽出部22は、名詞句候補一時保存部26に保存されているデータを名詞句候補文字列の文字数が多い順に並べ替える(ソートする)。以上のようにして、図6の処理が終了すると、図4のステップS14に移行する。
Thereafter, all sentence pairs are extracted, and if the determination in step S50 is affirmed, the process proceeds to step S52. In step S52, the noun phrase
図4のステップS14では、名詞句置換部24が、1つの名詞句候補文字列を特定する。この場合、名詞句置換部24は、名詞句候補一時保存部26に一時保存されているデータのうち、候補文字列の文字数が最も多いものを特定する。ここでは、図8(a)に示すデータ(名詞句候補ID=CANDI−1の名詞句候補文字列)が特定されたものとする。
In step S14 in FIG. 4, the noun
次いで、ステップS16では、名詞句置換部24は、文書中の名詞句候補文字列を暫定名詞[**]に置換する。具体的には、名詞句置換部24は、図8(b)に示すように、文書の中から、ステップS14で特定した名詞句候補文字列を含んでいる文を図8(a)のデータの出現原文ID(=Q302,Q304)に基づいて抽出する。そして、名詞句置換部24は、図8(c)に示すように、抽出された文のうち、名詞句候補文字列の部分を暫定名詞(仮の意味記号)[**]で置換する。
Next, in step S16, the noun
次いで、ステップS18では、整合性計算部29が、名詞句候補文字列に対する意味記号候補を抽出する処理のサブルーチンを実行する。このステップS18の処理においては、図9のフローチャートに沿った処理が実行される。
Next, in step S18, the
図9の処理では、まず、ステップS60において、整合性計算部29は、名詞句候補文字列を暫定名詞で置換した文集合Z(文数kmax)を取得する。ここでは、整合性計算部29は、図8(c)に示す2つの文(文数kmax=2)を取得したとする。
In the process of FIG. 9, first, in step S60, the
次いで、ステップS62では、整合性計算部29は、文の処理数を示すパラメータkを1に設定する。次いで、ステップS64では、整合性計算部29は、文集合Zに含まれる文zk(=z1)に対し、構文解析を行い、構文解析結果を獲得する。ここでは、例えば、図8(c)の原文ID=Q302の文についての構文解析を行い、図8(d)に示す構文解析結果を獲得したものとする。
Next, in step S62, the
次いで、ステップS66では、整合性計算部29は、構文解析済みコーパス40において、構文解析結果と類似する構文解析事例を検索する。なお、図8(d)の原文ID=Q302については、類似する構文解析事例が存在していなかったものとする。
Next, in step S66, the
次いで、ステップS68では、整合性計算部29は、ステップS66の結果、類似する構文解析事例が存在したか否かを判断する。ここでの判断が否定された場合には、ステップS74に移行し、整合性計算部29は、kがkmax(=2)であるか否かを判断する。ここでの判断が否定された場合には、ステップS76に移行し、整合性計算部29は、kを1インクリメント(k←k+1)し、ステップS64に戻る。
Next, in step S68, the
ステップS64に戻ると、整合性計算部29は、次の文z2として、図8(c)の原文ID=Q304の構文解析を行い、構文解析結果を獲得する。ここでは、図8(d)の原文ID=Q304の構文解析結果を得ることができたとする。次いで、ステップS66では、整合性計算部29は、構文解析済みコーパス40において構文解析結果と類似する構文解析事例を検索する。ここでは、類似する構文解析事例が存在しなかったものとする。したがって、次のステップS68の判断は否定され、ステップS74に移行する。ステップS74に移行すると、整合性計算部29は、kがkmax(=2)であるか否かを判断する。ここでの判断が肯定されると、図9の全処理を終了し、図4のステップS19に移行する。
Returning to step S64, the
図4のステップS19に移行すると、整合性計算部29は、ステップS18の処理において意味記号候補を抽出できたか否かを判断する。すなわち、整合性計算部29は、直前に行われたステップS18の処理において、ステップS72の処理が実行されたか否かを判断する。このステップS19の判断が否定されると、ステップS26に移行する。なお、ステップS19の判断が否定される場合とは、名詞句候補文字列として抽出した部分が、正しい名詞句でなかったことを意味する。
When the process proceeds to step S19 in FIG. 4, the
ステップS26に移行すると、整合性計算部29は、全ての名詞句候補を特定したか否かを判断する。このステップS26の判断が否定されると、ステップS14に戻り、名詞句置換部24は、2番目に文字数の多い名詞句候補文字列を特定する。ここでは、図10(a)に示すように、名詞句候補ID=CANDI−2の名詞句候補文字列が特定されたものとする。
If transfering it to step S26, the
次いで、ステップS16では、名詞句置換部24は、文書中の名詞句候補文字列を暫定名詞[**]に置換する。具体的には、名詞句置換部24は、図10(b)に示すように、文書の中から、名詞句候補文字列を含んでいる文を図10(a)のデータの出現原文ID(=Q302,Q304、Q305,Q306)に基づいて抽出する。そして、名詞句置換部24は、抽出された文のうち、名詞句候補文字列の部分を暫定名詞 [**]で置換する。
Next, in step S16, the noun
次いで、ステップS18では、整合性計算部29は、名詞句候補文字列に対する意味記号候補を抽出する処理を実行する(図9)。
Next, in step S18, the
図9の処理では、ステップS60において、整合性計算部29は、名詞句候補文字列を暫定名詞で置換した文集合Z(文数kmax=4)を取得する。
In the process of FIG. 9, in step S60, the
次いで、ステップS62では、整合性計算部29は、文を表すパラメータkを1に設定する。次いで、ステップS64では、整合性計算部29は、文集合Zに含まれる文zk(=z1)に対し、構文解析を行い、構文解析結果を獲得する。ここでは、例えば、図10(b)の原文ID=Q302の下線部を暫定名詞で置換したものについての構文解析を行い、図10(c)に示す構文解析結果を獲得したものとする。
Next, in step S62, the
次いで、ステップS66では、整合性計算部29は、構文解析済みコーパス40において、構文解析結果と類似する構文解析事例を検索する。なお、図10(c)の原文ID=Q302については、類似する構文解析事例として、図3に示す、事例ID=C1001,C1002の2つの事例が検索されたものとする。
Next, in step S66, the
次いで、ステップS68では、整合性計算部29は、ステップS66の結果、類似する構文解析事例が存在したか否かを判断する。ここでの判断が肯定されると、ステップS72に移行し、整合性計算部29は、検索された構文解析事例から、名詞句候補文字列の意味記号候補を特定し、意味候補リストに保存する。この場合、図11(a)に示すように、検索された構文解析事例(C1001)のうち、文の暫定名詞[**]と対応する意味記号が、[中子]であり、検索された構文解析事例(C1002)のうち、文の暫定名詞[**]と対応する意味記号が、[細菌]であるので、整合性計算部29は、これらの意味記号を意味記号候補と特定し、意味候補リストに保存する。
Next, in step S68, the
次いで、ステップS74に移行すると、整合性計算部29は、kがkmax(=4)であるか否かを判断する。ここでの判断が否定された場合には、ステップS76に移行し、整合性計算部29は、kを1インクリメント(k←k+1)し、ステップS64に戻る。
Next, in step S74, the
ステップS64に戻ると、整合性計算部29は、次の文z2として、図10(b)の原文ID=Q304の文を暫定名詞[**]で置換したものを構文解析し、構文解析結果を獲得する。ここでは、図10(c)の原文ID=Q304の構文解析結果を得ることができたとする。次いで、ステップS66では、整合性計算部29は、構文解析済みコーパス40において構文解析結果と類似する構文解析事例を検索する。ここでは、類似する構文解析事例として、事例ID=C1004の事例が検索されたものとする。この場合、ステップS68の判断が肯定され、ステップS72において、整合性計算部29は、意味記号[細菌]を意味記号候補と特定し、意味候補リストに保存する。その後、ステップS74の判断が否定されると、ステップS76に移行し、整合性計算部29は、kを1インクリメント(k←k+1)し、ステップS64に戻る。
Returning to step S64, the
以降、ステップS64〜S76の処理、判断を繰り返し、整合性計算部29は、図10(b)の残りの2つの文についても構文解析を行う。なお、本第1の実施形態では、原文ID=Q305の文に関しては、意味記号[細菌]が意味記号候補と特定され、原文ID=Q306の文に関しては、意味記号候補は特定されなかったものとする。
Thereafter, the processes and determinations in steps S64 to S76 are repeated, and the
その後、ステップS74の判断が肯定されると、図4のステップS19に移行する。 Thereafter, when the determination in step S74 is affirmed, the process proceeds to step S19 in FIG.
ステップS19に移行すると、整合性計算部29は、ステップS18の処理において意味記号候補を抽出できたか否かを判断する。すなわち、整合性計算部29は、直前に行われたステップS18の処理において、ステップS72の処理が実行されたか否かを判断する。このステップS19の判断が肯定されると、整合性計算部29は、ステップS20に移行する。
If transfering it to step S19, the
ステップS20では、整合性計算部29は、名詞句候補文字列が意味記号候補の場合の整合性評価のサブルーチンを実行する。本ステップS20では、具体的には、図12のフローチャートに沿った処理が実行される。
In step S20, the
図12の処理では、まず、ステップS80において、整合性計算部29は、文の処理数を示すパラメータkを1、意味記号候補の特定数を示すパラメータcを1、整合性評価に用いるパラメータnを0に設定する。なお、ここでは、パラメータkの最大値kmaxは4であり、パラメータcの最大値cmaxは2である。
In the process of FIG. 12, first, in step S80, the
次いで、ステップS82では、整合性計算部29は、意味記号候補Tc(=T1)を特定する。ここでは、意味記号候補Tcとして、[中子]が特定されたものとする。次いで、整合性計算部29は、文zk(=z1)の意味候補リストに意味記号候補Tc(=T1)が存在するか否かを判断する。図11(b)に示すよう原文ID=Q302の文は、意味記号候補Tcが[中子]である場合に、一致事例(C1001)が存在しているので、ステップS84の判断は肯定され、ステップS86に移行する。
Next, in step S82, the
ステップS86に移行すると、整合性計算部29は、nを1インクリメント(n←n+1)し、ステップS88に移行する。ステップS88では、整合性計算部29は、kが最大値(kmax)であるか否かを判断し、判断が否定されると、ステップS90において、kを1インクリメント(k←k+1)し、ステップS82に戻る。その後は、整合性計算部29は、全ての文の意味候補リストに意味記号候補T1が存在するか否かを判断し、kが最大値(kmax)となった段階で、ステップS92に移行する。
When the process proceeds to step S86, the
ステップS92に移行すると、整合性計算部29は、暫定名詞[**]が意味記号候補Tc(T1)である場合の整合性評価値を算出する。具体的には、次式(1)より、整合性評価値を算出する。
整合性評価値=n/kmax …(1)
If transfering it to step S92, the
Consistency evaluation value = n / kmax (1)
図11(b)の場合、n=1となるため、整合性評価値は、1/4=0.25となる。 In the case of FIG. 11B, since n = 1, the consistency evaluation value is 1/4 = 0.25.
次いで、ステップS94では、整合性計算部29は、cがcの最大値(cmax=2)であるか否かを判断する。ここでの判断が否定されると、ステップS96に移行し、整合性計算部29は、kを1に戻すとともに、cを1インクリメント(c←c+1)し、ステップS82に戻る。
Next, in step S94, the
ステップS82に戻った後は、上述したように、ステップS82〜S92の処理・判断を実行する。ここで、意味記号候補T2として、[細菌]が抽出された場合、図11(c)に示すように、意味候補リストに意味記号候補T2が存在する文の数nは、3である。したがって、ステップS92では、整合性計算部29は、整合性評価値として、3/4=0.75を算出する。
After returning to step S82, the processing / determination of steps S82 to S92 is executed as described above. Here, when [bacteria] is extracted as the semantic symbol candidate T2, the number n of sentences having the semantic symbol candidate T2 in the semantic candidate list is 3, as shown in FIG. Therefore, in step S92, the
その後、ステップS94の判断が肯定されると、整合性計算部29は、図12の全処理を終了し、図4のステップS22に移行する。ステップS22に移行すると、整合性計算部29は、整合性評価値が最大、かつ閾値を超えた意味記号候補があるか否かを判断する。例えば、閾値が0.5であるとすると、図11(b)、図11(c)の例では、整合性評価値の最大値0.75が閾値よりも大きいので、ステップS22の判断が肯定され、ステップS24に移行する。ステップS24では、整合性計算部29は、検出した名詞句と、意味記号候補を名詞句リストに登録する。図13(a)には、名詞句リストの一例が示されている。名詞句リストにおいては、ステップS14で特定された名詞句候補文字列が、「抽出された名詞句」の欄に格納され、ステップS22で特定された意味記号候補が、「意味記号」の欄に格納される。その後は、ステップS26に移行する。なお、ステップS22が肯定される場合とは、名詞句候補文字列として抽出した部分が正しい名詞句であったことを意味する。一方、ステップS22の判断が否定された場合には、ステップS24を経ずに、ステップS26に移行する。なお、ステップS22が否定される場合とは、名詞句候補文字列と仮定して抽出した部分が正しい名詞句ではなかったことを意味する。
Thereafter, when the determination in step S94 is affirmed, the
ステップS26に移行すると、整合性計算部29は、全ての名詞句候補文字列を特定したか否かを判断する。このステップS26の判断が否定されると、ステップS14に戻り、次の名詞句候補文字列について、ステップS14〜S26の処理・判断が実行される。例えば、図14(a)に示すように、名詞句候補ID=CANDI−3の名詞句候補文字列が特定されたとする(S14)。この場合、図14(b)に示すように、名詞句候補ID=CANDI−3の出現原文IDのうち、名詞句候補ID=CANDI−2の出現原文IDに含まれていないIDの文(原文ID=Q307、Q308)の名詞句候補文字列を暫定名詞[**]に変換するなどして、該名詞句候補文字列の意味記号として、[細菌]を特定する。これにより、名詞句リストには、図13(b)に示す2つ目のデータが追加される。
If transfering it to step S26, the
その後、ステップS26の判断が肯定されると、ステップS28に移行し、構文解析部30は、名詞句リストに基づいて名詞句を意味記号に置換し、構文解析済みコーパス40を用いて文書を解析する。これにより、構文解析部30は、名詞句を適切に区切り、適切な意味記号で置換した文を解析することができるため、高精度な構文解析結果を得ることができる。その後、構文解析部30は、ステップS30に移行し、出力部34を介して、解析結果を翻訳部52に対して出力する。
Thereafter, when the determination in step S26 is affirmed, the process proceeds to step S28, where the
なお、翻訳部52では、高精度な構文解析結果を用いて、文書を翻訳することができる。これにより、高精度な翻訳結果を得ることが可能となる。
Note that the
なお、上記説明から分かるように、図4のステップS14〜S22の処理においては、構文解析済みコーパス40に含まれる構文事例のうち、名詞句候補文字列を含む複数の文と類似する構文事例をそれぞれ抽出し(S66、図11(a)参照)、ステップS18,S20、S22において、抽出結果に基づいて、名詞句候補文字列の抽出が正しかったか判断し、名詞句候補文字列の意味を特定しているといえる。すなわち、本実施形態の整合性計算部29により、構文解析済みコーパス40に含まれる複数の正しい構文のうち、名詞句候補文字列を含む複数の文と類似する構文をそれぞれ抽出する抽出部、及び抽出部による抽出結果に基づいて、名詞句候補文字列が正しい名詞句であるか否かを判断する判断部としての機能が実現されている。また、本実施形態の整合性計算部29により、抽出部が抽出した構文に基づいて、名詞句候補文字列の意味を特定する特定部としての機能が実現されている。
As can be seen from the above description, in the processing of steps S14 to S22 in FIG. 4, among the syntax examples included in the parsed
以上、詳細に説明したように、本第1の実施形態によると、解析部50では、名詞句候補抽出部22が、文書内に複数回出現する単語群を名詞句候補文字列として抽出し(S12)、整合性計算部29が、構文解析済みコーパス40に含まれる複数の構文事例のうち、名詞句候補文字列を含む複数の文と類似する構文事例をそれぞれ抽出し、複数の文それぞれについて抽出された構文事例に基づいて、名詞句候補文字列の抽出が正しいか否かを判断する(S14〜S22)。これにより、複数の文を用いて名詞句候補文字列を仮定し、該仮定が正しいか否かを判断することで、文全体において名詞句候補文字列が正しい名詞句であるか否かを精度よく判断することができる。この場合、例えば、1つの文において名詞句候補文字列を仮定し、構文解析済みコーパス40の構文事例と比較する方法よりも、精度よく名詞句候補文字列が正しい名詞句か否かを判断することができる。これにより、品詞による語形変換がないため品詞の曖昧性により誤訳が生じやすい中国語の翻訳において、高精度な翻訳結果を得ることができる。
As described above in detail, according to the first embodiment, in the
また、本第1の実施形態では、名詞句候補文字列のうち文字数の多い名詞句候補を優先して、処理することとしている(S14)。これにより、文字数の少ない名詞句候補文字列を先に処理した場合に生じる、文字数の多い名詞句が分断される事態の発生を回避し、高精度な構文解析を実現することができる。 In the first embodiment, a noun phrase candidate having a large number of characters in the noun phrase candidate character string is preferentially processed (S14). As a result, it is possible to avoid occurrence of a situation where a noun phrase having a large number of characters is divided, which occurs when a noun phrase candidate character string having a small number of characters is processed first, and to realize a highly accurate syntax analysis.
また、本第1の実施形態では、整合性計算部29は、複数の文それぞれについて抽出された構文に基づいて、名詞句候補文字列の意味を特定する(意味記号を決定し、名詞句リストに登録する)。これにより、名詞句の意味を考慮した構文解析を行うことができるため、高精度な構文解析が可能となる。
In the first embodiment, the
また、本第1の実施形態では、解析部50の解析結果に基づいて、翻訳部52が文書の翻訳を実行するので、高精度な構文解析に基づく翻訳により、高精度な翻訳結果を得ることができる。
In the first embodiment, since the
《第2の実施形態》
以下、第2の実施形態について、図16〜図24に基づいて、詳細に説明する。なお、本第2の実施形態では、1つの文に複数の名詞句候補文字列が含まれる場合の例について説明する。なお、翻訳端末10の装置構成は、第1の実施形態と同様であるが、図16に示すように、解析部50が名詞句集合一時保存部25としての機能を有している点が異なる。
<< Second Embodiment >>
Hereinafter, the second embodiment will be described in detail with reference to FIGS. In the second embodiment, an example in which a plurality of noun phrase candidate character strings are included in one sentence will be described. The device configuration of the
図17は、本第2の実施形態における、解析部50の処理の概要を示すフローチャートである。図17において、第1の実施形態と異なる処理については、ステップ番号に「’」を付して示している。
FIG. 17 is a flowchart showing an outline of processing of the
図17の処理では、翻訳対象(解析対象)の文書が入力されると、ステップS12において、第1の実施形態と同様にして、名詞句候補抽出部22が、名詞句候補抽出処理を実行する(図6参照)。なお、本第2の実施形態では、図18に示すような特許文書が入力されたものとし、ステップS12では、図19(a)において下線を付して示す部分が名詞句候補文字列として抽出されたものとする。この場合、名詞句候補一時保存部26には、図19(b)、図19(c)のデータが一時保存されたものとする。
In the process of FIG. 17, when a translation target (analysis target) document is input, the noun phrase
次いで、図17のステップS13’では、名詞句候補抽出部22が、名詞句集合候補抽出処理のサブルーチンを実行する。具体的には、ステップS13’においては、図20に示す処理が実行される。
Next, in step S13 'of FIG. 17, the noun phrase
図20の処理では、ステップS102において、名詞句候補抽出部22が、名詞句候補のパラメータiを1に設定するとともに、文のパラメータkを1に設定する。次いで、ステップS104では、名詞句候補抽出部22は、名詞句候補Ni(=N1)を特定する。ここでは、名詞句候補ID=CANDI−1の名詞句候補文字列が特定されたものとする。そして、名詞句候補抽出部22は、特定した名詞句候補が文zk(=z1)の中に存在しているかどうかを確認する。なお、文z1は、一例として、図19(a)の原文ID=Q302であるものとする。
In the process of FIG. 20, in step S <b> 102, the noun phrase
次いで、ステップS106では、名詞句候補抽出部22が、iがiの最大値(imax=2)であるか否かを判断する。ここでの判断が否定されると、ステップS108において、名詞句候補抽出部22は、iを1インクリメント(i←i+1)し、ステップS104に戻る。
Next, in step S106, the noun phrase
ステップS104に戻ると、名詞句候補抽出部22は、名詞句候補N2として名詞句候補ID=CANDI−2の名詞句候補文字列を特定し、文z1に該名詞句候補文字列が存在するか否かを確認する。その後、ステップS106における判断が肯定されると、ステップS110に移行し、名詞句候補抽出部22は、文zk(=z1)に名詞句候補文字列が1以上存在していたか否かを判断する。
Returning to step S104, the noun phrase
このステップS110の判断が肯定されると、ステップS112に移行し、名詞句候補抽出部22は、名詞句集合一時保存部25に文zkに存在していた名詞句候補文字列の情報を名詞句集合の情報として格納する。図19(d)には、名詞句集合一時保存部25が一時保存するデータの一例が示されている。図19(d)に示すように、名詞句集合一時保存部25に一時保存されるデータは、「名詞句集合ID」と、「名詞句集合」の項目を含んでいる。文zk(ID=Q302)の場合、名詞句候補ID=CANDI−1、CANDI−2の両方が存在しているので、ステップS112では、名詞句集合として、名詞句集合ID=1に示すような情報が格納されることになる。なお、名詞句候補抽出部22は、名詞句集合一時保存部25に既に保存されている情報については、重複して保存しないようにする。
When the determination in step S110 is affirmed, the process proceeds to step S112, and the noun phrase
ステップS112の後、又はステップS110の判断が否定された場合には、ステップS114に移行する。ステップS114では、名詞句候補抽出部22は、kがkの最大値(kmax)と同一であるか否かを判断する。ここでの判断が否定された場合には、名詞句候補抽出部22は、ステップS116において、iを1に戻すとともに、kを1インクリメントした後、ステップS102に戻る。その後は、ステップS104以降の処理をステップS114の判断が肯定されるまで実行する。そして、図19(d)に示すようなデータが名詞句集合一時保存部25に格納され、ステップS114の判断が肯定された段階で、図20の処理を終了する。その後は、図17のステップS14’に移行する。
After step S112 or when the determination in step S110 is negative, the process proceeds to step S114. In step S114, the noun phrase
図17のステップS14’に移行すると、名詞句置換部24は、図19(d)の中から、1つの名詞句集合候補を特定する。例えば、名詞句置換部24は、図19(d)の中から、名詞句集合ID=1の名詞句集合候補を特定したものとする。
In step S14 'of FIG. 17, the noun
次いで、ステップS16’では、名詞句置換部24は、文書中の名詞句候補文字列を暫定名詞に置換する。この場合、ステップS14’で特定した名詞句集合候補に含まれる名詞句候補文字列を、図21(a)に示すように、暫定名詞[**1]、[**2]を用いて置換する。
Next, in step S16 ', the noun
次いで、ステップS18’では、整合性計算部29は、名詞句候補文字列に対する意味記号候補の抽出処理を実行する。このステップS18’では、図21(a)の各文を図21(b)のように構文解析し、各構文構造と類似する構文構造事例が構文解析済みコーパス40に含まれているかどうかを検索する。例えば、図22(a)に示す文(Q302)は、図22(b)に示す構文構造事例(C1001,C1002)と類似していたとする。この場合、図22(c)に示すように、[**1]の意味候補リストに意味記号候補[中子]と[細菌]が保存され、[**2]の意味候補リストに意味記号候補[土壌]と「金属」が保存される。以下、同様に、他の文についても構文解析が行われるが、意味候補リストは、図22(c)のままであったとする。
Next, in step S18 ', the
次いで、ステップS19では、整合性計算部29は、意味記号候補を抽出できたか否かを判断する。ここでの判断が否定された場合には、ステップS26’に移行するが、肯定された場合には、ステップS20’に移行する。
Next, in step S19, the
ステップS20’では、整合性計算部29は、名詞句集合候補が意味記号候補の場合の整合性を評価する処理を実行する。ここでは、整合性計算部29は、図22(d)に示すように、図22(c)の意味候補リストに基づいて、各暫定名詞の仮説(仮説1〜4)を立て、第1の実施形態と同様、整合性評価値を算出する。例えば、仮説1を採用した場合の構文解析の結果、図23(a)に示すように、原文ID=Q308の文のみ、構文解析済みコーパス40に一致事例が存在していたとする。この場合、仮説1の整合性評価値は、1/4=0.25となる。同様に、仮説2を採用した場合の構文解析の結果、図23(b)に示すように、原文ID=Q302の文のみ、構文解析済みコーパス40に一致事例が存在していたとする。この場合、仮説2の整合性評価値は、1/4=0.25となる。また、仮説3を採用した場合の構文解析の結果、図23(c)に示すように、原文ID=Q302、Q304,Q308の文に一致事例が存在していたとする。この場合、仮説3の整合性評価値は、3/4=0.75となる。更に、仮説4を採用した場合の構文解析の結果、図23(d)に示すように、原文ID=Q304の文のみ、一致事例が存在していたとする。この場合、仮説4の整合性評価値は、1/4=0.25となる。
In step S20 ', the
以上のように、ステップS20’において、図23(a)〜図23(d)の整合性評価値を得ると、整合性計算部29は、次のステップS22’に移行する。
As described above, when the consistency evaluation values shown in FIGS. 23A to 23D are obtained in step S20 ', the
ステップS22’に移行すると、整合性評価値が最大、かつ閾値(例えば、0.5)を超えた仮説が存在するか否かを判断する。ここでの判断が否定された場合には、ステップS26’に移行するが、肯定された場合には、ステップS24に移行する。ステップS24に移行すると、整合性計算部29は、図24に示すように、名詞句リストに意味記号を登録した後、ステップS26’に移行する。
In step S22 ', it is determined whether or not there is a hypothesis whose consistency evaluation value is the maximum and exceeds a threshold value (for example, 0.5). If the determination is negative, the process proceeds to step S26 '. If the determination is positive, the process proceeds to step S24. When the process proceeds to step S24, the
ステップS26’に移行すると、整合性計算部29は、全ての名詞句集合候補を特定したか否かを判断する。このステップS26’の判断が否定された場合には、ステップS14’に戻り、上述した処理を繰り返す。なお、図19(d)の名詞句集合ID=2、3の名詞句集合のように、既に前の処理(名詞句集合ID=1の処理)において意味記号が確定している名詞句候補文字列のみを含む集合については、ステップS14’以降の処理を実行しなくてもよい。一方、ステップS26’の判断が肯定された場合には、ステップS28に移行する。
In step S26 ', the
ステップS28では、第1の実施形態と同様、構文解析部30は、名詞句リスト(図24)に基づいて名詞句を意味記号に置換して、文書の解析を行う。そして、ステップS30では、構文解析部30は、出力部34を介してステップS28の解析結果を翻訳部52に対して出力する。
In step S28, as in the first embodiment, the
以上、詳細に説明したように、本第2の実施形態によると、第1の実施形態と同様の効果が得られるほか、複数種類の名詞句候補文字列を含む文が存在する場合に、名詞句候補抽出部22は、複数種類の名詞句候補文字列の少なくとも1つを含む文を前記文書の中から特定し、整合性計算部29は、特定した文それぞれと類似する構文事例を構文解析済みコーパス40から抽出する。そして、整合性計算部29は抽出した構文事例に基づいて、複数の名詞句候補文字列が正しい名詞句であるか否かを判断する。これにより、複数種類の名詞句候補文字列が正しい名詞句であるか否かを一度に判断することができるので、複数種類の名詞句候補文字列を用いた総合的な判断を行うことができる。これにより、1つずつ名詞句候補文字列が正しい名詞句であるか否かを判断する場合よりも、高精度な判断が可能となる。
As described above in detail, according to the second embodiment, the same effect as that of the first embodiment can be obtained, and when there is a sentence including a plurality of types of noun phrase candidate character strings, The phrase
なお、上記第1、第2の実施形態では、解析部50及び翻訳部52を翻訳端末10が有する場合について説明したが、これに限られるものではない。例えば、図25に示すように、ネットワーク180に接続されたサーバ110が解析部50や翻訳部52を有していても良い。この場合、クライアント120から翻訳対象の文書を入力することで、該文書がサーバ110において高精度に翻訳され、翻訳文がサーバ110からクライアント120に対して出力されるようになる。なお、図25の場合、解析部50及び翻訳部52のいずれかをクライアント120が有していてもよい。
In the first and second embodiments, the case where the
なお、上記第1、第2の実施形態では、中国語から日本語への翻訳を例にとり説明したが、これに限られるものではない。中国語以外の、品詞による語形変化がない言語の翻訳において、上記第1、第2の実施形態の装置や方法を用いることとしてもよい。また、中国語等から日本語以外の言語に翻訳する場合に、上記第1、第2の実施形態の装置や方法を用いることとしてもよい。 In the first and second embodiments, the translation from Chinese to Japanese has been described as an example. However, the present invention is not limited to this. In the translation of languages other than Chinese that have no change in word form due to part of speech, the devices and methods of the first and second embodiments may be used. Further, when translating from Chinese or the like into a language other than Japanese, the devices and methods of the first and second embodiments may be used.
なお、上記の処理機能は、コンピュータによって実現することができる。その場合、処理装置が有すべき機能の処理内容を記述したプログラムが提供される。そのプログラムをコンピュータで実行することにより、上記処理機能がコンピュータ上で実現される。処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体(ただし、搬送波は除く)に記録しておくことができる。 The above processing functions can be realized by a computer. In that case, a program describing the processing contents of the functions that the processing apparatus should have is provided. By executing the program on a computer, the above processing functions are realized on the computer. The program describing the processing contents can be recorded on a computer-readable recording medium (except for a carrier wave).
プログラムを流通させる場合には、例えば、そのプログラムが記録されたDVD(Digital Versatile Disc)、CD−ROM(Compact Disc Read Only Memory)などの可搬型記録媒体の形態で販売される。また、プログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することもできる。 When the program is distributed, for example, it is sold in the form of a portable recording medium such as a DVD (Digital Versatile Disc) or a CD-ROM (Compact Disc Read Only Memory) on which the program is recorded. It is also possible to store the program in a storage device of a server computer and transfer the program from the server computer to another computer via a network.
プログラムを実行するコンピュータは、例えば、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、自己の記憶装置に格納する。そして、コンピュータは、自己の記憶装置からプログラムを読み取り、プログラムに従った処理を実行する。なお、コンピュータは、可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することもできる。また、コンピュータは、サーバコンピュータからプログラムが転送されるごとに、逐次、受け取ったプログラムに従った処理を実行することもできる。 The computer that executes the program stores, for example, the program recorded on the portable recording medium or the program transferred from the server computer in its own storage device. Then, the computer reads the program from its own storage device and executes processing according to the program. The computer can also read the program directly from the portable recording medium and execute processing according to the program. Further, each time the program is transferred from the server computer, the computer can sequentially execute processing according to the received program.
上述した実施形態は本発明の好適な実施の例である。但し、これに限定されるものではなく、本発明の要旨を逸脱しない範囲内において種々変形実施可能である。 The above-described embodiment is an example of a preferred embodiment of the present invention. However, the present invention is not limited to this, and various modifications can be made without departing from the scope of the present invention.
なお、以上の第1、第2の実施形態の説明に関して、更に以下の付記を開示する。
(付記1) 文書内に複数回出現する単語群を名詞句候補として仮定する仮定部と、
構文リストに含まれる複数の正しい構文のうち、前記名詞句候補を含む複数の文と類似する構文をそれぞれ抽出する抽出部と、
前記抽出部による抽出結果に基づいて、前記名詞句候補の仮定が正しいか否かを判断する判断部と、を備える文書解析装置。
(付記2) 前記名詞句候補が複数存在する場合、
前記抽出部は、文字数の多い名詞句候補を優先的に選択し、選択した前記名詞句候補を含む複数の文と類似する構文をそれぞれ抽出することを特徴とする付記1に記載の文書解析装置。
(付記3) 前記抽出部が抽出した構文に基づいて、前記名詞句候補の意味を特定する特定部、を更に備える付記1又は2に記載の文書解析装置。
(付記4) 前記文書内に、複数種類の名詞句候補を含む文が存在する場合に、
前記抽出部は、前記複数種類の名詞句候補の少なくとも1つを含む複数の文を前記文書の中から特定して、特定した前記複数の文それぞれと類似する構文を前記構文リストから抽出し、
前記判断部は、前記抽出部による抽出結果に基づいて、前記複数種類の名詞句候補の仮定が正しいか否かを判断する、ことを特徴とする付記1〜3のいずれかに記載の文書解析装置。
(付記5) 前記判断部の判断結果に基づいて、前記文書の翻訳を実行する翻訳部を更に備える付記1〜4のいずれかに記載の文書解析装置。
(付記6) 文書内に複数回出現する単語群を名詞句候補として仮定し、
構文リストに含まれる複数の正しい構文のうち、前記名詞句候補を含む複数の文と類似する構文をそれぞれ抽出し、
抽出した結果に基づいて、前記名詞句候補の仮定が正しいか否かを判断する、
処理をコンピュータに実行させる文書解析プログラム。
(付記7) 前記名詞句候補が複数存在する場合、
前記抽出する処理では、文字数の多い名詞句候補を優先的に選択し、選択した前記名詞句候補を含む複数の文と類似する構文をそれぞれ抽出することを特徴とする付記6に記載の文書解析プログラム。
(付記8) 前記抽出する処理において抽出された構文に基づいて、前記名詞句候補の意味を特定する、処理を前記コンピュータに更に実行させる付記6又は7に記載の文書解析プログラム。
(付記9) 前記文書内に、複数種類の名詞句候補を含む文が存在する場合に、
前記抽出する処理では、前記複数種類の名詞句候補の少なくとも1つを含む複数の文を前記文書の中から特定して、特定した前記複数の文それぞれと類似する構文を前記構文リストから抽出し、
前記判断する処理では、前記抽出する処理における抽出結果に基づいて、前記複数種類の名詞句候補の仮定が正しいか否かを判断する、ことを特徴とする付記6〜8のいずれかに記載の文書解析プログラム。
(付記10) 前記判断する処理における判断結果に基づいて、前記文書を翻訳する、処理を前記コンピュータに実行させる付記6〜9のいずれかに記載の文書解析プログラム。
(付記11) 文書内に複数回出現する単語群を名詞句候補として仮定し、
構文リストに含まれる複数の正しい構文のうち、前記名詞句候補を含む複数の文と類似する構文をそれぞれ抽出し、
抽出した結果に基づいて、前記名詞句候補の仮定が正しいか否かを判断する、
処理をコンピュータが実行する文書解析方法。
(付記12) 前記名詞句候補が複数存在する場合、
前記抽出する処理では、文字数の多い名詞句候補を優先的に選択し、選択した前記名詞句候補を含む複数の文と類似する構文をそれぞれ抽出することを特徴とする付記11に記載の文書解析方法。
(付記13) 前記抽出する処理において抽出された構文に基づいて、前記名詞句候補の意味を特定する、処理を前記コンピュータが更に実行する付記11又は12に記載の文書解析方法。
(付記14) 前記文書内に、複数種類の名詞句候補を含む文が存在する場合に、
前記抽出する処理では、前記複数種類の名詞句候補の少なくとも1つを含む複数の文を前記文書の中から特定して、特定した前記複数の文それぞれと類似する構文を前記構文リストから抽出し、
前記判断する処理では、前記抽出する処理における抽出結果に基づいて、前記複数種類の名詞句候補の仮定が正しいか否かを判断する、ことを特徴とする付記11〜13のいずれかに記載の文書解析方法。
(付記15) 前記判断する処理における判断結果に基づいて、前記文書を翻訳する、処理を前記コンピュータが更に実行する付記11〜14のいずれかに記載の文書解析方法。
In addition, regarding the above description of the first and second embodiments, the following additional notes are disclosed.
(Supplementary note 1) An assumption part that assumes a group of words appearing multiple times in a document as a noun phrase candidate;
An extraction unit that extracts a plurality of correct syntaxes included in the syntax list, each of which is similar to a plurality of sentences including the noun phrase candidate,
A document analysis device comprising: a determination unit that determines whether or not the assumption of the noun phrase candidate is correct based on an extraction result by the extraction unit.
(Supplementary Note 2) When there are a plurality of noun phrase candidates,
The document analysis apparatus according to
(Additional remark 3) The document analysis apparatus of
(Supplementary Note 4) When a sentence including plural types of noun phrase candidates exists in the document,
The extraction unit identifies a plurality of sentences including at least one of the plurality of types of noun phrase candidates from the document, extracts a syntax similar to each of the plurality of identified sentences from the syntax list,
The document analysis according to any one of
(Supplementary note 5) The document analysis device according to any one of
(Supplementary Note 6) Assuming a word group that appears multiple times in a document as a noun phrase candidate,
Of the plurality of correct syntaxes included in the syntax list, respectively extract syntaxes similar to the plurality of sentences including the noun phrase candidates,
Based on the extracted results, determine whether the noun phrase candidate assumption is correct,
A document analysis program that causes a computer to execute processing.
(Supplementary Note 7) When there are a plurality of noun phrase candidates,
The document analysis according to appendix 6, wherein the extracting process preferentially selects a noun phrase candidate having a large number of characters and extracts a plurality of sentences similar to a plurality of sentences including the selected noun phrase candidate. program.
(Additional remark 8) The document analysis program of Additional remark 6 or 7 which makes the said computer further perform the process which specifies the meaning of the said noun phrase candidate based on the syntax extracted in the said process to extract.
(Supplementary Note 9) When there is a sentence including plural types of noun phrase candidates in the document,
In the extracting process, a plurality of sentences including at least one of the plurality of types of noun phrase candidates are identified from the document, and syntax similar to each of the identified plurality of sentences is extracted from the syntax list. ,
The determination process determines whether or not the assumptions of the plurality of types of noun phrase candidates are correct based on an extraction result in the extraction process. Document analysis program.
(Supplementary note 10) The document analysis program according to any one of supplementary notes 6 to 9, which causes the computer to execute a process of translating the document based on a determination result in the determination process.
(Supplementary Note 11) Assuming a word group that appears multiple times in a document as a noun phrase candidate,
Of the plurality of correct syntaxes included in the syntax list, respectively extract syntaxes similar to the plurality of sentences including the noun phrase candidates,
Based on the extracted results, determine whether the noun phrase candidate assumption is correct,
A document analysis method in which processing is executed by a computer.
(Supplementary Note 12) When there are a plurality of noun phrase candidates,
12. The document analysis according to appendix 11, wherein the extracting process preferentially selects noun phrase candidates having a large number of characters, and extracts syntaxes similar to a plurality of sentences including the selected noun phrase candidates. Method.
(Supplementary note 13) The document analysis method according to supplementary note 11 or 12, wherein the computer further executes a process of specifying the meaning of the noun phrase candidate based on the syntax extracted in the extracting process.
(Supplementary Note 14) When there is a sentence including plural types of noun phrase candidates in the document,
In the extracting process, a plurality of sentences including at least one of the plurality of types of noun phrase candidates are identified from the document, and syntax similar to each of the identified plurality of sentences is extracted from the syntax list. ,
The determination process determines whether or not the assumptions of the plural types of noun phrase candidates are correct based on an extraction result in the extraction process. Document analysis method.
(Supplementary note 15) The document analysis method according to any one of supplementary notes 11 to 14, wherein the computer further executes a process of translating the document based on a determination result in the determination process.
10 翻訳端末(文書解析装置)
22 名詞句候補抽出部(仮定部)
29 整合性計算部(抽出部、判断部、特定部)
40 構文解析済みコーパス(構文リスト)
52 翻訳部
10 Translation terminal (document analysis device)
22 Noun phrase candidate extraction part (assuming part)
29 Consistency calculation unit (extraction unit, determination unit, identification unit)
40 parsed corpus (syntax list)
52 Translation Department
Claims (7)
構文リストに含まれる複数の正しい構文のうち、前記名詞句候補を含む複数の文と類似する構文をそれぞれ抽出する抽出部と、
前記抽出部が前記名詞句候補を含む複数の文に類似する構文を抽出できたか否かに基づいて、前記名詞句候補の仮定が正しいか否かを判断する判断部と、を備える文書解析装置。 A hypothesis that assumes words that appear multiple times in the document as noun phrase candidates;
An extraction unit that extracts a plurality of correct syntaxes included in the syntax list, each of which is similar to a plurality of sentences including the noun phrase candidate,
A document analysis apparatus comprising: a determination unit that determines whether or not the assumption of the noun phrase candidate is correct based on whether the extraction unit has extracted syntax similar to a plurality of sentences including the noun phrase candidate; .
前記抽出部は、文字数の多い名詞句候補を優先的に選択し、選択した前記名詞句候補を含む複数の文と類似する構文をそれぞれ抽出することを特徴とする請求項1に記載の文書解析装置。 When there are a plurality of noun phrase candidates,
2. The document analysis according to claim 1, wherein the extraction unit preferentially selects noun phrase candidates having a large number of characters, and respectively extracts syntaxes similar to a plurality of sentences including the selected noun phrase candidates. apparatus.
前記抽出部は、前記複数種類の名詞句候補の少なくとも1つを含む複数の文を前記文書の中から特定して、特定した前記複数の文それぞれと類似する構文を前記構文リストから抽出し、
前記判断部は、前記抽出部が前記複数種類の名詞句候補の少なくとも1つを含む複数の文に類似する構文を抽出できたか否かに基づいて、前記複数種類の名詞句候補の仮定が正しいか否かを判断する、ことを特徴とする請求項1〜3のいずれか一項に記載の文書解析装置。 When there is a sentence including a plurality of types of noun phrase candidates in the document,
The extraction unit identifies a plurality of sentences including at least one of the plurality of types of noun phrase candidates from the document, extracts a syntax similar to each of the plurality of identified sentences from the syntax list,
The determination unit is correct in assuming the plurality of types of noun phrase candidates based on whether the extraction unit has extracted a syntax similar to a plurality of sentences including at least one of the plurality of types of noun phrase candidates. The document analysis apparatus according to claim 1, wherein the document analysis apparatus determines whether or not.
構文リストに含まれる複数の正しい構文のうち、前記名詞句候補を含む複数の文と類似する構文をそれぞれ抽出し、
前記抽出する処理において前記名詞句候補を含む複数の文に類似する構文を抽出できたか否かに基づいて、前記名詞句候補の仮定が正しいか否かを判断する、
処理をコンピュータに実行させる文書解析プログラム。 Assuming a group of words that appear multiple times in the document as noun phrase candidates,
Of the plurality of correct syntaxes included in the syntax list, respectively extract syntaxes similar to the plurality of sentences including the noun phrase candidates,
Determining whether or not the noun phrase candidate assumption is correct based on whether or not a syntax similar to a plurality of sentences including the noun phrase candidate can be extracted in the extracting process;
A document analysis program that causes a computer to execute processing.
抽出部が、構文リストに含まれる複数の正しい構文のうち、前記名詞句候補を含む複数の文と類似する構文をそれぞれ抽出し、
判断部が、前記抽出部が前記名詞句候補を含む複数の文に類似する構文を抽出できたか否かに基づいて、前記名詞句候補の仮定が正しいか否かを判断する、
処理を実行する文書解析方法。
Assuming part assumes a group of words appearing multiple times in the document as a noun phrase candidate,
The extraction unit extracts a plurality of correct syntaxes included in the syntax list, respectively, and extracts a syntax similar to a plurality of sentences including the noun phrase candidate,
The determination unit determines whether the assumption of the noun phrase candidate is correct based on whether the extraction unit has extracted a syntax similar to a plurality of sentences including the noun phrase candidate.
A document parsing method that performs processing.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014105221A JP6379666B2 (en) | 2014-05-21 | 2014-05-21 | Document analysis apparatus, document analysis program, and document analysis method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014105221A JP6379666B2 (en) | 2014-05-21 | 2014-05-21 | Document analysis apparatus, document analysis program, and document analysis method |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2015219861A JP2015219861A (en) | 2015-12-07 |
JP6379666B2 true JP6379666B2 (en) | 2018-08-29 |
Family
ID=54779144
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2014105221A Expired - Fee Related JP6379666B2 (en) | 2014-05-21 | 2014-05-21 | Document analysis apparatus, document analysis program, and document analysis method |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6379666B2 (en) |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH03214356A (en) * | 1990-01-19 | 1991-09-19 | Mitsubishi Electric Corp | Language translating system |
JP2004199173A (en) * | 2002-12-16 | 2004-07-15 | Oki Electric Ind Co Ltd | Natural language pattern generation device, natural language processor, natural language pattern generation method, program and storage medium |
JP2007018359A (en) * | 2005-07-08 | 2007-01-25 | Sharp Corp | Language processing device, language processing method and language processing program |
US20120284271A1 (en) * | 2010-01-18 | 2012-11-08 | Nec Corporation | Requirement extraction system, requirement extraction method and requirement extraction program |
JP2012141783A (en) * | 2010-12-28 | 2012-07-26 | Yahoo Japan Corp | Information processor, compound word extraction method and compound word extraction program |
-
2014
- 2014-05-21 JP JP2014105221A patent/JP6379666B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2015219861A (en) | 2015-12-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10061768B2 (en) | Method and apparatus for improving a bilingual corpus, machine translation method and apparatus | |
CN105095204B (en) | The acquisition methods and device of synonym | |
TWI656450B (en) | Method and system for extracting knowledge from Chinese corpus | |
KR20180078318A (en) | Methods and Apparatus for Determining the Agents | |
Mori et al. | A machine learning approach to recipe text processing | |
JP2016522524A (en) | Method and apparatus for detecting synonymous expressions and searching related contents | |
WO2017177809A1 (en) | Word segmentation method and system for language text | |
WO2005059771A1 (en) | Translation judgment device, method, and program | |
CN102779135B (en) | Method and device for obtaining cross-linguistic search resources and corresponding search method and device | |
JP2010225135A (en) | Disambiguation method and system | |
JP4534666B2 (en) | Text sentence search device and text sentence search program | |
JP2018088101A (en) | Synonymous expression extraction device, synonymous expression extraction method and synonymous expression extraction program | |
JP4979637B2 (en) | Compound word break estimation device, method, and program for estimating compound word break position | |
US20140358522A1 (en) | Information search apparatus and information search method | |
US20110106849A1 (en) | New case generation device, new case generation method, and new case generation program | |
JP5757551B2 (en) | Semantic classification assignment device, semantic classification provision method, semantic classification provision program | |
JP2018072979A (en) | Parallel translation sentence extraction device, parallel translation sentence extraction method and program | |
KR101983477B1 (en) | Method and System for zero subject resolution in Korean using a paragraph-based pivotal entity identification | |
JP6379666B2 (en) | Document analysis apparatus, document analysis program, and document analysis method | |
US8195686B2 (en) | Search method and search program | |
JP4476609B2 (en) | Chinese analysis device, Chinese analysis method and Chinese analysis program | |
KR20160109302A (en) | Knowledge Based Service System, Sever for Providing Knowledge Based Service, Method for Knowledge Based Service, and Computer Readable Recording Medium | |
JP4148247B2 (en) | Vocabulary acquisition method and apparatus, program, and computer-readable recording medium | |
CN111814025A (en) | Viewpoint extraction method and device | |
JP3919720B2 (en) | Paraphrasing device and computer program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20170206 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20171115 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20171121 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20180115 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20180703 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20180716 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6379666 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |