JP6160390B2 - 情報処理方法、プログラム及び装置 - Google Patents

情報処理方法、プログラム及び装置 Download PDF

Info

Publication number
JP6160390B2
JP6160390B2 JP2013194018A JP2013194018A JP6160390B2 JP 6160390 B2 JP6160390 B2 JP 6160390B2 JP 2013194018 A JP2013194018 A JP 2013194018A JP 2013194018 A JP2013194018 A JP 2013194018A JP 6160390 B2 JP6160390 B2 JP 6160390B2
Authority
JP
Japan
Prior art keywords
dependency
clause
evaluation value
sentence
clauses
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2013194018A
Other languages
English (en)
Other versions
JP2015060422A (ja
Inventor
英紀 伊藤
英紀 伊藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2013194018A priority Critical patent/JP6160390B2/ja
Publication of JP2015060422A publication Critical patent/JP2015060422A/ja
Application granted granted Critical
Publication of JP6160390B2 publication Critical patent/JP6160390B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Description

本発明は、自然言語処理における係り受け解析技術に関する。
自然言語処理においては、入力として平文が与えられた後、通常まず形態素解析が行われて、当該平文は形態素に分割される。また同時に形態素には品詞が付与される。次に、文節分割が実行される。係り受け解析はその次に行われる処理であり、各文節がどの文節に係るかを決定する。図1に係り受けの例を示す。ここでは「太郎は花子が読んでいる本を次郎に渡した」を、文節A「太郎は」、文節B「花子が」、文節C「読んでいる」、文節D「本を」、文節E「次郎に」、文節F「渡した」に分割する。ここで、係り受け解析を行えば、図1に示すように、文節Aは文節Fに係り、文節Bは文節Cに係り、文節Cは文節Dに係り、文節D及び文節Eは文節Fに係る。
日本語においては、文節は常に文の前から後ろに係る。このため、例えば文節が4の場合であって平文「AがBをCにDする」という文の場合、図2に示すような探索木を構築し、各係り受けに対して評価値を与えることになる。図2では、第0の階層として、文節Aから文節B、文節C又は文節Dへの係り受けが設けられ、第1の階層として、上記の3つの係り受けの各々について、文節Bから、文節C又は文節Dへの係り受けが設けられる。第3の階層として、文節Cからの係り受けを設定するが、文節数が4の場合には、文節Cから文節Dへの係り受けしか存在しないので、この例では第2の階層が末端の階層となる。
そして、点数が高いほど好ましい係り受けであるとすると、図2の例では、文節Aから文節Dへの係り受け、文節Bから文節Dへの係り受け、文節Cから文節Dへの係り受けが最も好ましい係り受けと判断される。
従来広く使われてきた係り受け解析ツールにおいては、この探索木の全域を残さず探索するのは計算量的に困難なため、何らかの基準を用いて探索木における枝刈りを行うものが多い。
良く用いられている係り受け解析ツールには、チャンキングの段階的適用という手法を用いているものがあるが、このような手法では探索木における探索量を削減できても、本来探索すべきところを一部のノードしか見ないため、正解ノードを探索対象から外すことがある。すなわち、正解を見落とすリスクを抱えている。このため解析精度がある程度以上は上がらないという欠点がある。
解析精度を上げるには探索木の全域探索を行う方が好ましいが、そのためには探索量の問題を解決することが求められる。
特開2008−152641号公報 特許第4514826号公報
工藤、松本, 「チャンキングの段階適用による係り受け解析」, 情報処理学会研究報告, 情報学基礎研究会報告, 2001(20), p.97-104, 2001-03-05 平川秀樹, 「最適解探索に基づく日本語意味係り受け解析」, 情報処理学会論文誌, 43(3), p.696-707, 2002-03-15
従って、本発明の目的は、一側面として、係り受け解析における探索量を削減するための技術を提供することである。
本係り受け解析方法は、(A)文に含まれる第1の文節から第2の文節への係り受けを含む第1の係り受けを設定し、第2の文節について、係り元の文節数を増分し、第1の係り受けに対して、第2の文節についての係り元の文節数を含む評価項目に応じた評価値を算出し、(B)算出された評価値に基づき、第1の係り受けにさらに係り受けを追加して設定するか否かを判断する処理を含む。
一側面として、係り受け解析における探索量を削減できるようになる。
図1は、日本語の係り受けの例を示す図である。 図2は、探索木の一例を示す図である。 図3は、本実施の形態に係る情報処理装置の機能ブロック図である。 図4は、本実施の形態に係るメインの処理フローを示す図である。 図5は、本実施の形態に係る探索処理の処理フローを示す図である。 図6は、本実施の形態に係る探索処理の処理フローを示す図である。 図7は、探索処理を説明するための図である。 図8は、探索処理を説明するための図である。 図9は、探索処理を説明するための図である。 図10は、探索処理を説明するための図である。 図11は、探索処理を説明するための図である。 図12は、探索処理を説明するための図である。 図13は、探索処理を説明するための図である。 図14は、探索処理を説明するための図である。 図15は、効果を説明するための図である。 図16は、コンピュータの機能ブロック図である。
評価関数にある種の属性があるとき、安全な枝刈りが可能になるケースがある。例えば、評価値が「係り受け関係が増えると値が悪化する」ときである。この条件を満たす場合には、一部のみ係り受けが設定されている状態(探索木における中間ノードまで探索した状態)における評価値が、係り受けの設定が完了したもの(探索木の末端ノードまで探索した状態)についてこれまでに算出された最良の評価値より悪いとき、一部のみの係り受けが設定された状態に対して残りの係り受けを設定しても現在の評価値より悪い評価値しか算出されない。従って、探索木における中間ノードについて評価値を算出すれば、その下の階層のノードについては探索をスキップできる。これによって探索量を削減できる。
このような手法は、広い意味で分岐限定法と呼ばれるが、分岐限定法を採用する際には、評価関数の設計が鍵となる。そこで、本実施の形態では、「その文節に係る総文節数(係り元の文節数とも呼ぶ)」を評価項目として新たに採用することとする。この評価項目は、上で述べたような条件を満たし、日本語の係り受けの評価項目としては有効である。すなわち、1つの文節に数多くの文節が係るような文は、多くの場合日本語として不自然である。従って、その文節に係る総文節数が多くなるほど評価値が悪くなる(例えば小さくなる)ように評価関数を設定する。これによって、探索木の探索量を削減できるようになる。
このように探索木の探索量を削減するための情報処理装置の構成を図3に示す。情報処理装置100は、入力データ格納部101と、形態素解析部102と、辞書データ格納部103と、第1データ格納部104と、文節分割部105と、第2データ格納部106と、係り受け解析部107と、評価値算出部108と、出力データ格納部109と、出力部110とを有する。
入力データ格納部101は、係り受け解析の対象となる文のデータを格納する。形態素解析部102は、辞書データ格納部103に格納されている辞書を用いて、解析対象の文に対して、よく知られた形態素解析を実行し、処理結果を第1データ格納部104に格納する。処理結果には、形態素への分割結果と、形態素の品詞情報を含む。
文節分割部105は、第1データ格納部104に格納されているデータから、よく知られた文節分割を行って、処理結果を第2データ格納部106に格納する。なお、処理結果には、形態素への分割結果と、形態素の品詞情報と、文節への分割結果とを含む。なお、本実施の形態では、処理結果には、評価値算出のために、文節毎に、助詞「の」で終わるか否かを表すフラグと、名詞で始まるか否かを表すフラグと、名詞で始まる場合には時間を表す名詞か否かを表すフラグと、名詞で始まる場合には事態を表す名詞か否かを表すフラグとが含まれる。
係り受け解析部107は、第2データ格納部106に格納されているデータを用いて係り受け解析を実行し、処理結果を出力データ格納部109に格納する。この際、係り元の文節数に基づく評価値の計算処理を行う評価値算出部108と連携して処理を行う。係り受け解析部107は、各文節の係り先文節の識別子(ID)と、各文節へ係る総文節数とを管理する。出力部110は、出力データ格納部109に格納されたデータを、出力する。
次に、図4乃至図15を用いて、情報処理装置100の処理内容を説明する。なお、以下では、処理を分かりやすくするために、「今日の都の知事の選挙の結果はひどかった」という例文を処理する例を共に説明する。
まず、形態素解析部102は、辞書データ格納部103に格納されている辞書データを用いて、入力データ格納部101に格納されている解析対象の文について形態素解析を行って、処理結果を第1データ格納部104に格納する(図4:ステップS1)。
また、文節分割部105は、第1データ格納部104に格納されているデータを用いて、文節分割処理を実行し、処理結果を第2データ格納部106に格納する(ステップS3)。ここまでの処理は、上で述べたように従来から知られた処理であるので、これ以上詳細には述べない。
なお、上で述べた例文は、文節A「今日の」、文節B「都の」、文節C「知事の」、文節D「選挙の」、文節E「結果は」、文節F「ひどかった」と文節分割される。なお、文節A乃至Dについては助詞「の」で終わるか否かを表すフラグがオンに設定されている。同様に、文節A乃至Eについては名詞で始まるか否かを表すフラグがオンに設定されている。さらに、名詞で始まる場合には時間を表す名詞か否かを表すフラグは、文節Aについてオンに設定されており、名詞で始まる場合には事態を表す名詞か否か表すフラグは、文節Dについてオンに設定されている。
その後、係り受け解析部107は、後の処理で用いられる変数を初期化する(ステップS5)。例えば、これまでの評価値最大値を保持するための変数αには、非常に小さい値(例えば−10000)を設定し、i番目の文節へ係る総文節数を保持するための変数chunk[i].nSrcesに対して、0を設定する。また、文の文節数をnに設定する。なお、本実施の形態では、評価値は大きいほど良い値であるものとするが、評価値については小さいほど良い値とする場合もある。
その後、係り受け解析部107は、探索木の階層番号dep=0として、探索処理Search(0)を実行する(ステップS7)。探索処理Search(dep)については、図5乃至図15を用いて説明する。なお、この処理を実行することで、最終的に、最大評価値αと、当該最大評価値αが算出された係り受けbestseqが、出力データ格納部109に格納される。
そうすると、出力部110は、最大評価値αと、当該最大評価値αが算出された係り受けbestseqとを、出力装置(表示装置、印刷装置又は他のコンピュータ)に出力する(ステップS9)。
次に、探索処理Search(dep)について図5乃至図15を用いて説明する。
まず、係り受け解析部107は、現在の係り受けに対して評価値算出部108に評価値を算出させ、得られた評価値を変数vに設定する(ステップS11)。
dep=0の場合には、まだ係り受けが設定されていないので、例えばvに対してαより大きい値(例えば−1000)を設定する。
それ以外の場合には、何らかの係り受けが設定されているので、その係り受けについてのデータを係り受け解析部107から評価値算出部108に出力して、評価値を算出させる。
本実施の形態では、説明を簡略化するために以下のような評価項目について評価値を算出して総和を計算する。
評価項目1)
助詞「の」で終わる文節は、名詞で始まる文節に係る。従って、名詞で始まる文節に係る場合には0点、それ以外の場合には−10点を加算する。
評価項目2)
時間を表す名詞(例えば「今日」等)は、事態を表す名詞(例えば選挙」等)に優先的に係る。従って、事態を表す名詞に係る場合には0点、それ以外の場合には−3点を加算する。
評価項目3)
各文節に係る総文節数は多くなると不自然な日本語となる。これは上でも述べたように本実施の形態で新たに追加された評価項目である。例えば、以下で述べる簡単な例では、総文節数が「1」以下であれば0点、「2」以下であれば−1点、「3」以上であれば−2点を加算する。
ここで述べた値については一例であって、異なる評価値を設定するようにしても良い。実際的には、係り元の文節数が7程度の場合に、ペナルティを与えるようにする。また、評価項目1及び2についても一例であって、他の評価項目を採用するようにしても良い。
そして、係り受け解析部107は、階層番号depが文節数n−2であるか否かを判断する(ステップS13)。図2にも模式的に示したように、文節数4でも、第2階層では最終の文節への係り受けしかあり得ないので、第2階層までの処理で探索木におけるリーフまで処理したことになる。すなわち、階層番号depが文節数n−2であれば、リーフに達したことになる。
従って、階層番号depが文節数n−2と一致すれば、係り受け解析部107は、vを返して(ステップS15)、端子Bを介して呼び出し元の処理に戻る。なお、ステップS15に遷移するのは、再帰的に探索処理Search(dep)を呼び出した場合だけであり、最初からステップS15へ遷移することはない。
一方、階層番号depが文節数n−2ではない場合には、係り受け解析部107は、v≦αであるか判断する(ステップS17)。本実施の形態では、αは、これまでにリーフまで係り受けを設定した場合(より具体的には、係り元の文節がn−3の階層の文節になるまで係り受けを設定した場合)における評価値の最大値であるので、ステップS11で算出された現在の係り受けの評価値vが、α以下であれば、これ以降の階層について係り受け設定の処理を行っても、評価値vがαを上回ることはない。そこで、v≦αであれば、係り受け解析部107は、αを返して(ステップS19)、端子Bを介して呼び出し元の処理に戻る。すなわち、枝刈りが行われたことになる。これにより探索量の削減が行われている。
一方、vがαより大きい場合には、係り受け解析部107は、変数jを階層番号dep+1に設定する(ステップS21)。初期的には、こちらのルートで処理される。以下、係り受けを新たに設定する。処理は端子Aを介して図6の処理に移行する。
図6の処理の説明に移行して、係り受け解析部107は、変数jがnより小さいか判断する(ステップS23)。j番目の文節が最後の文節以降となっていないということを確かめている。jがn以上になった場合には、係り受け解析部107は、αを返して(ステップS25)、呼び出し元の処理に戻る。階層番号depについての係り受けの設定が最後の文節まで試されたということで、1つ上の階層の処理に戻る。
一方、j<nであれば、係り受け解析部107は、dep番目の文節からj番目の文節への係り受けを設定する(ステップS27)。
最初の場合には、0番目の文節Aから1番目の文節Bへの係り受けが設定される。図7に模式的に示すように、第0階層目の文節Aから1番目の文節Bへの係り受け(探索木のリンク)が設定された状態である。
そして、係り受け解析部107は、j番目の文節についての係り総文節数を1インクリメントする(ステップS29)。上で述べた変数ではChunk[j].nSrcesが1インクリメントされる。ここでは、文節Bについての係り総文節数が1になる。
その後、係り受け解析部107は、次の階層についての探索処理Search(dep+1)の再帰呼び出しを行う(ステップS31)。返り値は評価値vである。
そうすると、図5のステップS11で文節Aから文節Bへの係り受けに対する評価値vは、評価項目2により「−3」となる。ステップS13ではNoルートに遷移し、ステップS17でもNoルートに遷移し、ステップS21でjは「2」に設定される。
そして、図6のステップS23ではYesルートに遷移し、ステップS27では、文節Bから文節Cへの係り受けが設定される。さらにステップS29では、文節Cについての係り総文節数が1にインクリメントされる。そして、再度ステップS31で、さらに下位の階層についての探索処理Search(dep+1)が再帰呼び出しされる。ここまでで、図8の状態になる。
そうすると、dep=2ということで、ステップS11で、文節Aから文節Bへの係り受けの評価値(「−3」)+文節Bから文節Cへの係り受けの評価値(「0」)で、v=−3が得られる。ステップS13ではNoルートに遷移し、ステップS17でもNoルートに遷移し、ステップS21でjは「3」に設定される。
そして、ステップS23ではYesルートに遷移し、ステップS27では、文節Cから文節Dへの係り受けが設定される。さらにステップS29では、文節Dについての係り総文節数が1にインクリメントされる。そして、再度ステップS31で、さらに下位の階層についての探索処理Search(dep+1)が再帰呼び出しされる。ここまでで、図9の状態になる。
そうすると、dep=3ということで、ステップS11で、文節Aから文節Bへの係り受けの評価値(「−3」)+文節Bから文節Cへの係り受けの評価値(「0」)+文節Cから文節Dへの係り受けの評価値(「0」)で、v=−3が得られる。ステップS13ではNoルートに遷移し、ステップS17でもNoルートに遷移し、ステップS21でjは「4」に設定される。
そして、ステップS23ではYesルートに遷移し、ステップS27では、文節Dから文節Eへの係り受けが設定される。さらにステップS29では、文節Eについての係り総文節数が1にインクリメントされる。そして、再度ステップS31で、さらに下位の階層についての探索処理Search(dep+1)が再帰呼び出しされる。ここまでで、図10の状態になる。
そうすると、dep=4ということで、ステップS11で、文節Aから文節Bへの係り受けの評価値(「−3」)+文節Bから文節Cへの係り受けの評価値(「0」)+文節Cから文節Dへの係り受けの評価値(「0」)+文節Dから文節Eへの係り受けの評価値(「0」)で、v=−3が得られる。ここで、dep=4であるから、n−2と一致する。従って、ステップS13ではYesルートに遷移し、ステップS15でv=−3が返される。そうすると、dep=3の状態で、ステップS31に戻ってくることになる。
図6の処理の説明に戻って、係り受け解析部107は、dep=n−3であり且つvがαより大きいか判断する(ステップS33)。dep=3でステップS31に戻ってきた場合には、dep=n−3である。また、v=−3であれば、αの初期値よりも大きい。従って、条件を満たしていると判断される。
ステップS33の条件を満たしている場合には、係り受け解析部107は、vをαに代入し、現在の係り受けを変数bestseqに設定する(ステップS35)。そして処理はステップS37に移行する。上の例では、α=−3となり、bestseqに対して、A−>B−>C−>D−>Eという係り受けが設定される。一方、ステップS33の条件を満たしていない場合には、処理はステップS37に移行する。
そして、係り受け解析部107は、j番目の文節の係り総文節数を1デクリメントする(ステップS37)。また、係り受け解析部107は、dep番目の文節からj番目の文節への係り受けを外す(ステップS39)。すなわち、文節Dから文節Eへの係り受けを外して、文節Eの係り総文節数を1デクリメントする。そうすると、探索木は図10の状態から、図9の状態に戻る。
さらに、係り受け解析部107は、jを1インクリメントする(ステップS41)。上で述べた例では、j=5となる。そして処理はステップS23に戻る。
上で述べた例では、ステップS23ではYesルートに遷移し、ステップS27では、文節Dから文節Fへの係り受けが設定される。さらにステップS29では、文節Fについての係り総文節数が1にインクリメントされる。そして、再度ステップS31で、下位の階層についての探索処理Search(dep+1)が再帰呼び出しされる。ここまでで、図11の状態になる。
そうすると、dep=4ということで、ステップS11で、文節Aから文節Bへの係り受けの評価値(「−3」)+文節Bから文節Cへの係り受けの評価値(「0」)+文節Cから文節Dへの係り受けの評価値(「0」)+文節Dから文節Fへの係り受けの評価値(「−10」)で、v=−13が得られる。ここで、dep=4であるから、n−2と一致する。従って、ステップS13ではYesルートに遷移し、ステップS15でv=−13が返される。そうすると、dep=3の状態で、ステップS31に戻ってくることになる。
しかしながら、v<αであるからステップS33ではNoルートに遷移し、文節Dから文節Fへの係り受けを外して、文節Fの係り総文節数を1デクリメントする。そして、jを1インクリメントすると、j=6となるので、ステップS23でNoルートに遷移し、αが返される。そうすると、dep=2の状態で、ステップS31に戻ってくることになる。そして、ステップS33では条件を満たさないのでNoルートに遷移し、ステップS37及びステップS39で、文節Cから文節Dへの係り受けを外して、さらに文節Dの係り総文節数を1デクリメントする。そうすると、探索木は図8の状態に戻る。
dep=2の状態でj=3であるから、ステップS41ではjは4に設定される。ステップS23ではYesルートに遷移し、ステップS27では、文節Cから文節Eへの係り受けが設定される。また、ステップS29では、文節Eの係り総文節数を1インクリメントする。そして、再度ステップS31で、下位の階層についての探索処理Search(dep+1)が再帰呼び出しされる。ここまでで、図12の状態になる。
そうすると、dep=3ということで、ステップS11で、文節Aから文節Bへの係り受けの評価値(「−3」)+文節Bから文節Cへの係り受けの評価値(「0」)+文節Cから文節Eへの係り受けの評価値(「0」)で、v=−3が得られる。そして、ステップS13ではNoルートに遷移し、ステップS17でもNoルートに遷移し、ステップS21でjは「4」に設定される。
そして、ステップS23ではYesルートに遷移し、ステップS27では、文節Dから文節Eへの係り受けが設定される。さらにステップS29では、文節Eについての係り総文節数が1インクリメントされる。ここでは文節Eの係り総文節数は「2」となる。そして、再度ステップS31で、さらに下位の階層についての探索処理Search(dep+1)が再帰呼び出しされる。ここまでで、図13の状態になる。
そうすると、dep=4ということで、ステップS11で、文節Aから文節Bへの係り受けの評価値(「−3」)+文節Bから文節Cへの係り受けの評価値(「0」)+文節Cから文節Eへの係り受けの評価値(「0」)+文節Dから文節Eへの係り受けの評価値(「−1」)で、v=−4が得られる。ここで、dep=4であるから、n−2と一致する。従って、ステップS13ではYesルートに遷移し、ステップS15でv=−4が返される。そうすると、dep=3の状態で、ステップS31に戻ってくることになる。
ステップS33では、dep=n−3であるが、αが−3でv=−4であるから条件を満たさない。そこで、文節Dから文節Eへの係り受けが外されて、文節Eへの係り総文節数を1デクリメントする。また、ステップS41でjが「5」に設定される。
そして、ステップS23ではYesルートに遷移し、ステップS27では、文節Dから文節Fへの係り受けが設定される。さらにステップS29では、文節Fについての係り総文節数が1にインクリメントされる。そして、再度ステップS31で、さらに下位の階層についての探索処理Search(dep+1)が再帰呼び出しされる。ここまでで、図14の状態になる。
そうすると、dep=4ということで、ステップS11で、文節Aから文節Bへの係り受けの評価値(「−3」)+文節Bから文節Cへの係り受けの評価値(「0」)+文節Cから文節Eへの係り受けの評価値(「0」)+文節Dから文節Fへの係り受けの評価値(「−10」)で、v=−13が得られる。ここで、dep=4であるから、n−2と一致する。従って、ステップS13ではYesルートに遷移し、ステップS15でv=−13が返される。そうすると、dep=3の状態で、ステップS31に戻ってくることになる。
以下、同じように処理が進められることになる。
なお、A−D、B−>C−>D−>Eという係り受けについて評価値を算出すると、文節Dの係り総文節数が「2」であるので、評価項目3によってv=−1となるが、α=−3よりも大きいので、αは−1に更新され、bestseqには上記の係り受けが設定される。
その後、「A−>D,B−>D(他は係り受け未設定)」が係り受けに設定されると、評価項目3によってv=−1となる。しかし、α=−1となっているので、Search(3)を呼ぶことなく枝刈りがなされる。従って、模式的に示すと、図15の点線四角で囲われた部分の探索が省略されることになる。
以上のように探索量が削減されて、高速に係り受けを決定できるようになる。
以上本発明の実施の形態を説明したが、本発明はこれに限定されるものではない。上でも述べたように、評価値は小さい方が良いように設定することもできる。さらに、実施の形態で述べたアルゴリズムは一例であって、係り総文節数によって探索木に対する探索の枝刈りができるようなものであればよい。
さらに、図3に示した情報処理装置100の機能ブロック構成は一例であり、プログラムモジュール構成と一致しない場合もある。また、データ格納部の構成についても、ファイル構成とは一致しない場合もある。
処理フローについても、処理結果が変わらなければ、処理順番を入れ替えたり、複数ステップを並列実行できる場合もある。
なお、上で述べた情報処理装置100は、コンピュータ装置であって、図16に示すように、メモリ2501とCPU(Central Processing Unit)2503とハードディスク・ドライブ(HDD:Hard Disk Drive)2505と表示装置2509に接続される表示制御部2507とリムーバブル・ディスク2511用のドライブ装置2513と入力装置2515とネットワークに接続するための通信制御部2517とがバス2519で接続されている。オペレーティング・システム(OS:Operating System)及び本実施例における処理を実施するためのアプリケーション・プログラムは、HDD2505に格納されており、CPU2503により実行される際にはHDD2505からメモリ2501に読み出される。CPU2503は、アプリケーション・プログラムの処理内容に応じて表示制御部2507、通信制御部2517、ドライブ装置2513を制御して、所定の動作を行わせる。また、処理途中のデータについては、主としてメモリ2501に格納されるが、HDD2505に格納されるようにしてもよい。本技術の実施例では、上で述べた処理を実施するためのアプリケーション・プログラムはコンピュータ読み取り可能なリムーバブル・ディスク2511に格納されて頒布され、ドライブ装置2513からHDD2505にインストールされる。インターネットなどのネットワーク及び通信制御部2517を経由して、HDD2505にインストールされる場合もある。このようなコンピュータ装置は、上で述べたCPU2503、メモリ2501などのハードウエアとOS及びアプリケーション・プログラムなどのプログラムとが有機的に協働することにより、上で述べたような各種機能を実現する。
以上述べた本実施の形態をまとめると、以下のようになる。
本実施の形態に係る係り受け解析方法は、(A)文に含まれる第1の文節から第2の文節への係り受けを含む第1の係り受けを設定し、(B)第2の文節について、係り元の文節数を増分し、(C)第1の係り受けに対して、第2の文節についての係り元の文節数を含む評価項目に応じた評価値を算出し、(D)評価値が大きな値の方が良い値の場合には、算出された評価値が、上記文において少なくとも最後の文節より2つ手前の文節からの係り受けが設定された場合に算出された最大評価値より大きいという条件、評価値が小さい値の方が良い値の場合には、算出された評価値が、上記文において少なくとも最後の文節より2つ手前の文節からの係り受けが設定された場合に算出された最小評価値より小さいという条件を満たすか否かを判断する処理を含み、上記条件を満たさないと判断された場合には、第1の係り受けに追加される係り受けの設定処理が省略される。
このように係り元の文節数の数という新規な評価項目を採用することで、係り受けが追加で設定されるほど評価値が悪くなる場合には、効果的に探索量を削減できるようになる。
なお、本係り受け解析方法は、(E)上で述べた条件を満たすと判断された場合には、上記文において第1の文節の次に出現する第3の文節から第4の文節への係り受けを含む第2の係り受けを設定し、(F)増分する処理以降の処理を、第2の係り受けに対して実行する処理をさらに含むようにしても良い。より下位の探索を行うものである。
さらに、本係り受け解析方法は、(G)上で述べた条件を満たさないと判断された場合には、第2の文節について、係り元の文節数を減分し、(H)第1の文節から第2の文節への係り受けを解除し、(I)第1の文節から上記文において第1の文節より後ろの第5の文節への係り受けを含む第3の係り受けを設定し、(J)増分する処理以降の処理を、第3の係り受けに対して実行する処理をさらに含むようにしても良い。条件を満たさない場合には、下位の階層についての探索を省略して、別の枝に切り替えて探索するものである。
さらに、本係り受け解析方法は、(K)上で述べた条件を満たすと判断され、且つ第1の文節が文における最後の文節より2つ手前の文節であれば、算出された評価値を、最大評価値又は最小評価値に設定し、現在の係り受けをデータ格納部に格納する処理をさらに含むようにしても良い。このように探索木のリーフまで探索した場合に、最善の評価値が得られた場合には、これまでに算出された最善の評価値を更新し、現在の係り受けのデータを保持しておくものである。
なお、上で述べたような処理をコンピュータに実行させるためのプログラムを作成することができ、当該プログラムは、例えばフレキシブル・ディスク、CD−ROMなどの光ディスク、光磁気ディスク、半導体メモリ(例えばROM)、ハードディスク等のコンピュータ読み取り可能な記憶媒体又は記憶装置に格納される。なお、処理途中のデータについては、RAM等の記憶装置に一時保管される。
以上の実施例を含む実施形態に関し、さらに以下の付記を開示する。
(付記1)
文に含まれる第1の文節から第2の文節への係り受けを含む第1の係り受けを設定し、
前記第2の文節について、係り元の文節数を増分し、
前記第1の係り受けに対して、前記第2の文節についての前記係り元の文節数を含む評価項目に応じた評価値を算出し、
算出された前記評価値に基づき、前記第1の係り受けにさらに係り受けを追加して設定するか否かを判断する
処理を、コンピュータに実行させるための係り受け解析プログラム。
(付記2)
前記判断する処理が、
評価値が大きな値の方が良い値の場合には、算出された前記評価値が、前記文において少なくとも最後の文節より2つ手前の文節からの係り受けが設定された場合に算出された最大評価値より大きいという条件、評価値が小さい値の方が良い値の場合には、算出された前記評価値が、前記文において少なくとも最後の文節より2つ手前の文節からの係り受けが設定された場合に算出された最小評価値より小さいという条件を満たすか否かを判断する
処理を含み、
前記条件を満たさないと判断された場合には、前記第1の係り受けに追加される係り受けの設定処理が省略される、
付記1記載の係り受け解析プログラム。
(付記3)
前記条件を満たすと判断された場合には、前記文において前記第1の文節の次に出現する第3の文節から第4の文節への係り受けを含む第2の係り受けを設定し、
前記増分する処理以降の処理を、前記第2の係り受けに対して実行する
処理をさらに前記コンピュータに実行させるための付記2記載の係り受け解析プログラム。
(付記4)
前記条件を満たさないと判断された場合には、前記第2の文節について、前記係り元の文節数を減分し、
前記第1の文節から前記第2の文節への係り受けを解除し、
前記第1の文節から前記文において前記第1の文節より後ろの第5の文節への係り受けを含む第3の係り受けを設定し、
前記増分する処理以降の処理を、前記第3の係り受けに対して実行する
処理をさらに前記コンピュータに実行させるための付記2又は3記載の係り受け解析プログラム。
(付記5)
前記条件を満たすと判断され、且つ前記第1の文節が前記文における最後の文節より2つ手前の文節であれば、算出された前記評価値を、前記最大評価値又は前記最小評価値に設定し、前記現在の係り受けをデータ格納部に格納する
処理をさらに前記コンピュータに実行させるための付記2乃至4のいずれか1つ記載の係り受け解析プログラム。
(付記6)
文に含まれる第1の文節から第2の文節への係り受けを含む第1の係り受けを設定し、
前記第2の文節について、係り元の文節数を増分し、
前記第1の係り受けに対して、前記第2の文節についての前記係り元の文節数を含む評価項目に応じた評価値を算出し、
算出された前記評価値に基づき、前記第1の係り受けにさらに係り受けを追加して設定するか否かを判断する
処理を含み、
コンピュータにより実行される係り受け解析方法。
(付記7)
文に含まれる第1の文節から第2の文節への係り受けを含む第1の係り受けを設定し、前記第2の文節について、係り元の文節数を増分する係り受け解析部と、
前記第1の係り受けに対して、前記第2の文節についての前記係り元の文節数を含む評価項目に応じた評価値を算出する評価値算出部と、
を有し、
前記係り受け解析部が、
算出された前記評価値に基づき、前記第1の係り受けにさらに係り受けを追加して設定するか否かを判断する
係り受け解析装置。
100 情報処理装置
101 入力データ格納部
102 形態素解析部
103 辞書データ格納部
104 第1データ格納部
105 文節分割部
106 第2データ格納部
107 係り受け解析部
108 評価値算出部
109 出力データ格納部
110 出力部

Claims (6)

  1. 文に含まれる複数の文節について文節間のあり得る係り受けを順次設定して評価値に基づき前記文における係り受けを選択する処理において、
    前記複数の文節のうち順次選択される第1の文節から当該第1の文節より後ろで出現するいずれかの第2の文節への係り受けを含む第1の係り受けを設定し、
    前記第2の文節について、係り元の文節数を増分し、
    前記第1の係り受けに対して、前記第2の文節についての前記係り元の文節数を含む評価項目に応じた評価値を算出し、
    評価値が大きな値の方が良い値の場合には、算出された前記評価値が、前記文において少なくとも最後の文節より2つ手前の文節からの係り受けが設定された場合に算出された最大評価値より大きいという条件、評価値が小さい値の方が良い値の場合には、算出された前記評価値が、前記文において少なくとも最後の文節より2つ手前の文節からの係り受けが設定された場合に算出された最小評価値より小さいという条件を満たすか否かを判断する
    処理を、コンピュータに実行させ、
    前記条件を満たさないと判断された場合には、前記第1の係り受けに追加される係り受けの設定処理が省略される、
    係り受け解析プログラム。
  2. 前記条件を満たすと判断された場合には、前記文において前記第1の文節の次に出現する第3の文節から当該第3の文節より後ろで出現するいずれかの第4の文節への係り受けを含む第2の係り受けを設定し、
    前記増分する処理以降の処理を、前記第2の係り受けに対して実行する
    処理をさらに前記コンピュータに実行させるための請求項記載の係り受け解析プログラム。
  3. 前記条件を満たさないと判断された場合には、前記第2の文節について、前記係り元の文節数を減分し、
    前記第1の文節から前記第2の文節への係り受けを解除し、
    前記第1の文節から前記文において前記第1の文節より後ろで出現し且つ前記第2の文節以外のいずれかの第5の文節への係り受けを含む第3の係り受けを設定し、
    前記増分する処理以降の処理を、前記第3の係り受けに対して実行する
    処理をさらに前記コンピュータに実行させるための請求項1又は2記載の係り受け解析プログラム。
  4. 前記条件を満たすと判断され、且つ前記第1の文節が前記文における最後の文節より2つ手前の文節であれば、算出された前記評価値を、前記最大評価値又は前記最小評価値に設定し、前記第1の係り受けをデータ格納部に格納する
    処理をさらに前記コンピュータに実行させるための請求項1乃至3のいずれか1つ記載の係り受け解析プログラム。
  5. 文に含まれる複数の文節について文節間のあり得る係り受けを順次設定して評価値に基づき前記文における係り受けを選択する処理において、
    前記複数の文節のうち順次選択される第1の文節から当該第1の文節より後ろで出現するいずれかの第2の文節への係り受けを含む第1の係り受けを設定し、
    前記第2の文節について、係り元の文節数を増分し、
    前記第1の係り受けに対して、前記第2の文節についての前記係り元の文節数を含む評価項目に応じた評価値を算出し、
    評価値が大きな値の方が良い値の場合には、算出された前記評価値が、前記文において少なくとも最後の文節より2つ手前の文節からの係り受けが設定された場合に算出された最大評価値より大きいという条件、評価値が小さい値の方が良い値の場合には、算出された前記評価値が、前記文において少なくとも最後の文節より2つ手前の文節からの係り受けが設定された場合に算出された最小評価値より小さいという条件を満たすか否かを判断する
    処理を含み、
    前記条件を満たさないと判断された場合には、前記第1の係り受けに追加される係り受けの設定処理が省略される、
    コンピュータにより実行される係り受け解析方法。
  6. 文に含まれる複数の文節について文節間のあり得る係り受けを順次設定して評価値に基づき前記文における係り受けを選択する係り受け解析装置であって、
    前記複数の文節のうち順次選択される第1の文節から当該第1の文節より後ろで出現するいずれかの第2の文節への係り受けを含む第1の係り受けを設定し、前記第2の文節について、係り元の文節数を増分する係り受け解析部と、
    前記第1の係り受けに対して、前記第2の文節についての前記係り元の文節数を含む評価項目に応じた評価値を算出する評価値算出部と、
    を有し、
    前記係り受け解析部が、
    評価値が大きな値の方が良い値の場合には、算出された前記評価値が、前記文において少なくとも最後の文節より2つ手前の文節からの係り受けが設定された場合に算出された最大評価値より大きいという条件、評価値が小さい値の方が良い値の場合には、算出された前記評価値が、前記文において少なくとも最後の文節より2つ手前の文節からの係り受けが設定された場合に算出された最小評価値より小さいという条件を満たすか否かを判断し、
    前記条件を満たさないと判断された場合には、前記第1の係り受けに追加される係り受けの設定処理が省略される、
    係り受け解析装置。
JP2013194018A 2013-09-19 2013-09-19 情報処理方法、プログラム及び装置 Expired - Fee Related JP6160390B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2013194018A JP6160390B2 (ja) 2013-09-19 2013-09-19 情報処理方法、プログラム及び装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013194018A JP6160390B2 (ja) 2013-09-19 2013-09-19 情報処理方法、プログラム及び装置

Publications (2)

Publication Number Publication Date
JP2015060422A JP2015060422A (ja) 2015-03-30
JP6160390B2 true JP6160390B2 (ja) 2017-07-12

Family

ID=52817887

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013194018A Expired - Fee Related JP6160390B2 (ja) 2013-09-19 2013-09-19 情報処理方法、プログラム及び装置

Country Status (1)

Country Link
JP (1) JP6160390B2 (ja)

Also Published As

Publication number Publication date
JP2015060422A (ja) 2015-03-30

Similar Documents

Publication Publication Date Title
CN109523991B (zh) 语音识别的方法及装置、设备
JP5921716B2 (ja) 意図推定装置および意図推定方法
JP3983265B1 (ja) 辞書作成支援システム、方法及びプログラム
US20140350913A1 (en) Translation device and method
JP5071373B2 (ja) 言語処理装置、言語処理方法および言語処理用プログラム
JP2019082931A (ja) 検索装置、類似度算出方法、およびプログラム
CN107291730B (zh) 对查询词提供校正建议的方法、装置、及概率词典构建方法
Adams Refactoring proofs with Tactician
JP6160390B2 (ja) 情報処理方法、プログラム及び装置
WO2009113289A1 (ja) 新規事例生成装置、新規事例生成方法及び新規事例生成用プログラム
JP2016004472A (ja) 情報処理方法、プログラム及び装置
Pirinen et al. Improving finite-state spell-checker suggestions with part of speech n-grams
JP2006004366A (ja) 機械翻訳システム及びそのためのコンピュータプログラム
CN112541062B (zh) 平行语料对齐方法、装置、存储介质及电子设备
JP2010287154A (ja) 文書校正プログラムおよび文書校正装置
JP2009176148A (ja) 未知語判定システム、方法及びプログラム
JPWO2012124301A1 (ja) 関連仕様対応付けシステム、関連仕様対応付け方法およびプログラム
Marimon Integrating shallow linguistic processing into a unification-based spanish grammar
JP5585489B2 (ja) 検索支援装置、プログラム及び方法
JP2009146447A (ja) テキスト要約システム、テキスト要約方法、および、テキスト要約プログラム
Mattiuzzi An evaluation of part-of-speech taggers for French
JP5472921B2 (ja) 文書処理装置およびプログラム
KR101116478B1 (ko) 문장의 지지도를 이용한 점증적 단일 문서 요약방법
Wu et al. An improved hierarchical word sequence language model using word association
Jongejan The CLARIN-DK Text Tonsorium

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20160606

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20170301

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20170314

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170428

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170516

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170529

R150 Certificate of patent or registration of utility model

Ref document number: 6160390

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees