JP5990124B2 - 略語生成装置、略語生成方法、及びプログラム - Google Patents

略語生成装置、略語生成方法、及びプログラム Download PDF

Info

Publication number
JP5990124B2
JP5990124B2 JP2013065008A JP2013065008A JP5990124B2 JP 5990124 B2 JP5990124 B2 JP 5990124B2 JP 2013065008 A JP2013065008 A JP 2013065008A JP 2013065008 A JP2013065008 A JP 2013065008A JP 5990124 B2 JP5990124 B2 JP 5990124B2
Authority
JP
Japan
Prior art keywords
abbreviation
character string
candidate character
mora
candidate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2013065008A
Other languages
English (en)
Other versions
JP2014191490A (ja
Inventor
塚原 裕史
裕史 塚原
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Denso IT Laboratory Inc
Original Assignee
Denso IT Laboratory Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Denso IT Laboratory Inc filed Critical Denso IT Laboratory Inc
Priority to JP2013065008A priority Critical patent/JP5990124B2/ja
Publication of JP2014191490A publication Critical patent/JP2014191490A/ja
Application granted granted Critical
Publication of JP5990124B2 publication Critical patent/JP5990124B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Document Processing Apparatus (AREA)
  • Machine Translation (AREA)

Description

本発明は、単語、文または名称等の略語を生成する装置に関する。
与えられた単語(あるいは文字列)の略語(あるいは短縮文字列)を生成する従来技術として、もっとも単純には、単語(以下、単語に対して文字列などの注釈は省略するが、文字列も含むものとする)の先頭から指定の長さまでを残す方法(特許文献1)がある。また、略語辞書を用意する方法(特許文献2)、単語短縮のルールを用意する方法(特許文献3)、確率モデルによる方法(特許文献4、5)なども知られている。
特許文献2における略語辞書を用意する方法では、与えられた単語が略語辞書に登録されている場合に、略語を生成する。また、略語除外辞書も用意されており、略語除外辞書に登録された単語は略語が生成されない。
特許文献3に記載されたルールベースでの略語生成の手法では、まず単語をより基本的な構成要素(例えば、形態素など)へ分割する。その各基本構成要素の属性や単語内の基本要素数などに応じて、各基本要素から何文字を使って、略語を生成するという規則が定められている。
特許文献4に記載された方法では、略語を生成するための尤度モデルが定められている。その尤度モデルは、単語の基本構成要素としてモーラが採用されており、各モーラの単語内での位置、モーラ長、連続したモーラの音韻的な繋がり易さに関する尤度が与えられており、可能な略語全体の中から、尤度が最大となるものを選択する。
特許文献5には、モーラ列に対して、略語に用いるか否かをラベルとし、ラベルをConditional Random Field(CRF)という確率モデルによって定める方法が記載されている。この方法では、事前に学習データとして単語とその略語の組みを複数個用意し、学習データによって確率モデルのパラメタを決定する。このようにすることで、学習データにない一般の単語であっても、略語を生成することができる。
特開2004−227313号公報 特開2003−333161号公報 特開平11−272701号公報 特許第3724649号公報 国際公開番号W02009/041220
特許文献1のように、単純に単語の先頭から指定の長さまでを残す方法では、略語の長さ制限は容易に満たすことができるが、当然、異なる単語から同じ略語が生成されてしまうという問題がある。例えば、複数の単語の組において、各単語から略語を生成する場合、生成された略語の組において、それらがお互いに識別不可能な場合が頻発することになる。
特許文献2にある方法では、辞書に登録されていない単語に関しては略語が生成できないという問題がある。また、予め略語の長さが決められない場合には、そもそも辞書が略語の長さの条件を満たすように用意することができないという問題もある。あるいは、長さの条件を変えて複数の略語辞書を用意しなければならず、非常に多くの人手を要する。
特許文献3にある方法では、より多くの単語に関して略語を生成することが可能ではあるが、やはり略語の長さに関する条件を後で変更することが難しいという問題がある。仮に、極端な場合として長さ1あるいは2の略語を生成するルールを作っておくことも可能ではあるが、音韻的に繋がりの良い略語が生成されるとは限らない。また、複数の単語の組が与えられた場合に、お互いに区別し易いような略語が生成されるとは限らず、お互いを識別し難い略語からなる組を生成してしまうという問題がある。
特許文献4、5に記載された方法では、音韻的な繋がりの良い略語を生成できるが、やはり、略語の長さを制限したり、あるいは、単語の組に対して生成される略語がお互いに区別し易いように生成するというような条件を満たすことができないという問題がある。また、略語の生成において、単語の構成要素の順序を入れ替えられることがしばしば起こる。例えば、「牛丼梅田」という単語が、「梅牛」のように略されることがある。特許文献4,5の手法では、そのような略語を扱うことができない。
本発明の略語生成装置は、略語の生成対象となる元文字列と、生成すべき略語の長さの上限値を入力する入力部と、前記元文字列を形態素に分解し、分解した形態素から機能語を除いた形態素を抽出する構成要素分析部と、前記構成要素分析部にて抽出された形態素またはその一部を組み合わせて構成される候補文字列の集合を生成し、前記元文字列のそれぞれの形態素について、前記候補文字列がその一部を含むか否かを示す第1のインジケータ関数と、前記候補文字列が前記元文字列のそれぞれの文字を含むか否かを示す第2のインジケータ関数とを状態変数とし、前記集合に含まれる前記候補文字列を前記状態変数で表す略語候補生成部と、略語の事例データを用いた学習によって求めた略語内で任意の二つのモーラが並ぶ可能性を表すモーラ親和性のデータを記憶したモーラ親和性データ記憶部と、前記状態変数を変数とする目的関数であって、(1)前記候補文字列の長さが長いほど値が小さくなり、(2)前記候補文字列の長さが前記上限値を超えると値が最小値を取り得ないように設定され、(3)前記候補文字列に含まれるモーラについて、前記モーラ親和性データ記憶部に記憶されたデータに基づいて計算されるモーラの親和性が高いほど値が小さくなる目的関数、の値を最小にする候補文字列を前記候補文字列の集合の中から求める最適解探索部と、前記最適解探索部で求めた候補文字列を出力する出力部とを備える。
元文字列の形態素またはその一部から構成した候補文字列の集合の中から、目的関数を最小にする候補文字列を求める方法により、目的関数を最小にするような条件、すなわち、上限値以下の文字数で、音韻的に繋がりの良い略語を生成することができる。なお、前記最適化探索部は、最急降下法、モンテカルロ法、または、アニーリング法を用いて、目的関数を最小にする候補文字列を求めてもよい。
本発明の略語生成装置において、前記最適解探索部は、前記目的関数を最小にする候補文字列に加え、前記目的関数を最小にする方から所定個数の候補文字列を求め、前記出力部は、所定個数の候補文字列と、それに対応する前記目的関数の値を出力してもよい。この構成により、複数の略語の中から適切な略語をユーザに選択させることができる。
本発明の略語生成装置において、前記入力部は、略語の生成対象となる複数の元文字列を入力し、前記目的関数は、前記(1)〜(3)に加えて、(4)前記元文字列に対応する候補文字列の間のモーラの類似度が低いほど値が小さくなる目的関数であり、前記最適解探索部は、前記元文字列に対応する候補文字列の組のうち、前記目的関数を最小にする組を求め、前記出力部は、前記候補文字列の組を出力してもよい。
このように複数の元文字列に対応する候補文字列の間のモーラの類似度が低いほど値が小さくなる目的関数を最小にする候補文字列を求めることにより、上限値以下の文字数で、音韻的に繋がりが良く、お互いに区別し易い略語の組を生成することができる。なお、前記目的関数における候補文字列間のモーラの類似度の計算には、レーベンシュタイン距離を用いてもよい。
本発明の略語生成装置において、前記最適解探索部は、前記目的関数を最小にする候補文字列に加え、前記目的関数を最小にする方から所定個数の候補文字列の組を求め、前記出力部は、所定個数の候補文字列の組と、それに対応する前記目的関数の値を出力してもよい。この構成により、複数の略語の組の中から適切な略語をユーザに選択させることができる。
本発明の略語生成装置において、前記目的関数は、候補文字列に含まれる形態素間のモーラ親和性と形態素内のモーラ親和性を計算してもよい。
本発明の略語生成装置において、前記略語候補生成部は、元文字列に含まれる形態素の順序を保った候補文字列の集合を生成してもよい。
このような条件を有する候補文字列の集合の中から略語を探索することにより、探索の範囲が限定されるので計算処理が容易になると共に、多くの略語においては、元文字列の形態素の順序は保持されることから、適切な略語を求めることができる。
本発明の略語生成装置において、前記略語候補生成部は、元文字列に含まれる最初の形態素を先頭に持つ略語候補を生成してもよい。
このような条件を有する候補文字列の集合の中から略語を探索することにより、探索の範囲が限定されるので計算処理が容易になると共に、元文字列の最初の形態素が略語においても最初に用いられることが多いから、適切な略語を求めることができる。
本発明の略語生成方法は、略語生成装置によって略語を生成する方法であって、前記略語生成装置が、略語の生成対象となる元文字列と、生成すべき略語の長さの上限値を入力するステップと、前記略語生成装置が、前記元文字列を形態素に分解し、分解した形態素から機能語を除いた形態素を抽出するステップと、前記略語生成装置が、抽出された形態素またはその一部を組み合わせて構成される候補文字列の集合を生成し、前記元文字列のそれぞれの形態素について、前記候補文字列がその一部を含むか否かを示す第1のインジケータ関数と、前記候補文字列が前記元文字列のそれぞれの文字を含むか否かを示す第2のインジケータ関数とを状態変数とし、前記集合に含まれる前記候補文字列を前記状態変数で表すステップと、前記略語生成装置が、略語の事例データを用いた学習によって求めた略語内で任意の二つのモーラが並ぶ可能性を表すモーラ親和性のデータをモーラ親和性データ記憶部に記憶するステップと、前記略語生成装置が、前記状態変数を変数とする目的関数であって、(1)前記候補文字列の長さが長いほど値が小さくなり、(2)前記候補文字列の長さが前記上限値を超えると値が最小値を取り得ないように設定され、(3)前記候補文字列に含まれるモーラについて、前記モーラ親和性データ記憶部に記憶されたデータに基づいて計算されるモーラの親和性が高いほど値が小さくなる目的関数、の値を最小にする候補文字列を前記候補文字列の集合の中から求めるステップと、前記略語生成装置が、求めた候補文字列を出力するステップとを備える。
本発明のプログラムは、略語を生成するためのプログラムであって、コンピュータに、略語の生成対象となる元文字列と、生成すべき略語の長さの上限値を入力するステップと、前記元文字列を形態素に分解し、分解した形態素から機能語を除いた形態素を抽出するステップと、抽出された形態素またはその一部を組み合わせて構成される候補文字列の集合を生成し、前記元文字列のそれぞれの形態素について、前記候補文字列がその一部を含むか否かを示す第1のインジケータ関数と、前記候補文字列が前記元文字列のそれぞれの文字を含むか否かを示す第2のインジケータ関数とを状態変数とし、前記集合に含まれる前記候補文字列を前記状態変数で表すステップと、略語の事例データを用いた学習によって求めた略語内で任意の二つのモーラが並ぶ可能性を表すモーラ親和性のデータをモーラ親和性データ記憶部に記憶するステップと、前記状態変数を変数とする目的関数であって、(1)前記候補文字列の長さが長いほど値が小さくなり、(2)前記候補文字列の長さが前記上限値を超えると値が最小値を取り得ないように設定され、(3)前記候補文字列に含まれるモーラについて、前記モーラ親和性データ記憶部に記憶されたデータに基づいて計算されるモーラの親和性が高いほど値が小さくなる目的関数、の値を最小にする候補文字列を前記候補文字列の集合の中から求めるステップと、求めた候補文字列を出力するステップとを実行させる。
本発明の方法及びプログラムも、上記した略語生成装置と同様に、上限値以下の文字数で、音韻的に繋がりの良い略語を生成することができるという効果を有する。なお、上記した略語生成装置の各種の構成を本発明の方法及びプログラムに適用することができることは言うまでもない。
本発明によれば、元文字列から、上限値以下の文字数で、音韻的にも繋がりの良い略語を生成することが可能となり、かつ、元文字列が複数の場合には、各略語がお互いに区別し易い略語となるようにすることができる。結果として、より分かり易く自然な文章の簡潔化、データリストの簡潔で区別しやすい表示が可能な情報提供システムの実現、略語からの単語推定による情報抽出精度の向上、情報検索における効果的な検索拡張、音声認識システムなどでは、認識率の高い音声コマンドリストを生成することができるようになるという効果がある。
候補文字列の生成について説明するための図である。 本実施の形態における略語生成装置の構成を示す図である。 本実施の形態の略語生成装置のハードウェアを示す図である。 サポートベクトルマシンによる学習を模式的に示す図である。 略語生成装置が、候補文字列の集合を生成するまでの動作を示す図である。 略語生成装置が、候補文字列の集合から略語を決定して出力する動作を示す図である。 ハミルトニアン最適化の処理の詳細を示す図である。
以下、本発明の実施の形態の略語生成装置について図面を参照して説明する。以下では、複数の元文字列の組に対する略語の組の生成について説明するが、一の元文字列の略語生成については、一つのみからなる元文字列を考えればよい。「元文字列」は、略語の生成対象となる文字列である。また、元文字列には、複数の語からなる複合語、文章、単語などが含まれる。
[概略説明]
最初に、実施の形態の略語生成方法の概略について説明する。本実施の形態の略語生成方法は、所定の文字数以下で、音韻的な繋がりが良く、かつ、元文字列が複数の場合には、それに対応する略語の組において、お互いに区別し易い略語を生成するものである。
実施の形態の略語生成方法では、まず、入力された元文字列の構成要素を分析して、元文字列に含まれている形態素または形態素の一部を使って、略語の候補となる複数の候補文字列を生成する。候補文字列の集合は、形態素または形態素の一部のすべての組合せからなる。
図1は、候補文字列の生成について説明するための図である。図1では、「地鶏の唐揚げ」を元文字列の例としている。「地鶏の唐揚げ」を形態素に分解すると、「地」「鶏」「の」「唐」「揚げ」となる。このうち「の」は、機能語である。機能語とは、名詞や動詞などの内容語と共に用いられ、それらの文法的機能を示す語である。例えば、助動詞、冠詞、指示詞、前置詞、接続詞などが機能語である。本実施の形態では、機能語を除外した形態素を元文字列の構成要素として決定する。なお、本書では、日本語の略語を生成する場合を例としているが、本発明は、日本語に限らず、他の言語における略語の生成に用いることができる。
次に、形態素をさらに文字に分解する。ここでは、「揚げ」という形態素は「揚」「げ」に分解される。次に、分解して求めた形態素および形態素の一部を組み合わせて、候補文字列を生成する。後に詳述するが、本実施の形態では、生成された候補文字列を、元文字列に含まれる各形態素またはその一部を含むか否かを示すインジケータ関数、元文字列に含まれる文字を含むか否かを示すインジケータ関数によって表す。図1に、その例を示している。候補文字列の中に元文字列の形態素piが含まれるか否かをμで表しているが、例えば、「地鶏揚」という候補文字列は、元文字列の「地」(1番目の形態素)、「鶏」(2番目の形態素)、「揚げ」(4番目の形態素)の一部である「揚」を含んでいるので、μ={1,1,0,1}となる。また、候補文字列の中に元文字列の文字riが含まれるか否かをξで表しているが、例えば、「地鶏揚」という候補文字列は、元文字列の「地」(1番目の文字)、「鶏」(2番目の文字)、「揚」(4番目の文字)を含んでいるので、ξ={1,1,0,1,0}となる。
略語生成方法は、候補文字列(の状態変数)を変数とし、(1)候補文字列の長さが長いほど値が小さくなり、(2)候補文字列の長さが上限値を超えると値が極めて大きくなり、最小値を取り得ないように設定され、(3)候補文字列に含まれるモーラの親和性が高いほど値が小さくなり、(4)元文字列に対応する候補文字列の間のモーラの類似度が低いほど値が小さくなるような目的関数を有している。本書では、この目的関数を「ハミルトニアン」という。なお、「モーラ」とは、音韻上の単位である。略語生成装置は、モーラを定義したデータベースであるモーラ定義部(図2、符号27参照)を有している。
略語生成方法は、目的関数に対して候補文字列を順次代入し、目的関数の値が最小となるような候補文字列を求める。元文字列が複数の場合には、目的関数を最小にする候補文字列の組を求める。候補文字列の集合が大きい場合には、全ての候補文字列を代入する総当たり方式ではなく、最急降下法や、モンテカルロ法、アニーリング法などの手法を用いて、最適解を探索することとしてもよい。
なお、候補文字列の集合を生成する際に、略語の上限値を満たす候補文字列だけを生成することが可能であり、このような方法を採用してもよい。ただし、本実施の形態では、目的関数を(2)候補文字列の長さが上限値を超えると値が極めて大きくなり、最小値を取り得ないように設定することで、上限値の制約条件を目的関数に含めることとしている。これにより、目的関数を解析的に解くことができるので、上述した各種の最適解探索手法を適用することが可能となる。
本実施の形態の略語生成方法は、以上の方法によって、元文字列に対する略語を生成し、生成した略語を出力する。
[構成・動作]
図2は、本実施の形態における略語生成装置1の構成を示す図である。
略語生成装置1は、元文字列および略語の上限値を入力する入力部10と、入力された元文字列の構成要素を分析する構成要素分析部11と、構成要素の分析結果に基づいて略語の候補となる候補文字列の集合を生成する略語候補生成部15と、候補文字列の中から最適の略語を探索するハミルトニアン最適解探索部16と、探索された略語を出力する出力部19とを有している。
入力部10は、例えばキーボードやマウスなどの入力手段である。また、入力部10は、例えば、文章などが記載された電子データを読み取る手段であってもよい。出力部19は、例えば、ディスプレイやスピーカである。
図3は、本実施の形態の略語生成装置1のハードウェアを示す図である。略語生成装置1は、CPU30、RAM31、ROM32、キーボード34、マウス35、ディスプレイ36、スピーカ37、ハードディスク38、通信部39がデータバス40によって接続されたコンピュータによって構成される。CPU30が、ROM31に書き込まれたプログラム32に従って演算処理を実行することにより、以下に説明する略語生成装置1の機能が実現される。このようなプログラム32は、本発明の範囲に含まれる。
構成要素分析部11は、形態素分析部12と、機能語抽出部13とを有している。形態素分析部12は、図1で説明したように、元文字列を形態素に分解する機能を有している。機能語抽出部13は、分解された形態素から機能語を抽出する機能を有している。機能語抽出部13は、日本語の機能語を定義した機能語定義部14を有している。機能語抽出部13は、機能語定義部14を参照して、分解された形態素の中から機能語を抽出する。構成要素分析部12は、元文字列を分解して得られた形態素から機能語を除外し、内容語からなる形態素を元文字列の構成要素として求める。
略語候補生成部15は、構成要素分析部11にて求めた内容語からなる形態素及びその一部を用いて、略語の候補となる候補文字列の集合を生成する機能を有している。
ハミルトニアン最適解探索部16は、目的関数の最適解を最急降下法によって求める機能を有している。状態変数の配位更新部17と、ハミルトニアン計算部18とを有している。状態変数の配位更新部17は、目的関数に代入する状態変数(つまり候補文字列)を更新する機能を有している。ハミルトニアン計算部18は、更新された状態変数についてハミルトニアンの値を計算する機能を有している。
ハミルトニアン計算部18は、形態素内モーラ親和性評価部20と、形態素間モーラ親和性評価部21と、略語間類似度計算部22とに接続されている。モーラ親和性とは、略語において、二つのモーラが並ぶ可能性を定量的に示す値である。例えば、略語において「ア」のモーラの次に「ラ」のモーラが続くことが多ければ、「ア」と「ラ」の親和性があり、「ア」のモーラの次に「ヘ」のモーラが続くことが少なければ、「ア」と「ヘ」には親和性がないことになる。
モーラ親和性評価部20,21は、候補文字列に含まれるモーラの並び方をみて、親和性が高いか低いかを評価する。形態素内モーラ親和性評価部20は、評価の対象が形態素の中でのモーラの並びであり、形態素間モーラ親和性評価部21は、評価の対象が一の形態素と他の形態素に跨るモーラの並びである。例えば、図1に示す例でいうと、形態素内モーラ親和性とは、「トリ」という形態素の中の「ト」と「リ」の並びの親和性であり、形態素間モーラ親和性とは、「トリ」という形態素と「カラ」という形態素の間の「リ」と「カ」の並びの親和性である。
形態素内モーラ親和性評価部20は、形態素内モーラの親和性のデータを記憶した形態素内モーラ親和性データベース23と接続されている。同様に、形態素間モーラ親和性評価部21は、形態素間モーラの親和性のデータを記憶した形態素間モーラ親和性データベース24と接続されている。形態素内モーラ親和性データベース23と形態素間モーラ親和性データベース24は、いずれも、略語コーパス25に記憶した略語の事例を学習データとして、学習部26にて学習して生成したデータベースである。略語コーパス25に記憶された略語の事例は、実際に存在する略語なので、モーラ間の親和性が「ある」データのみである。学習部26は、1クラスサポートベクトルマシンによる学習を行うことで、図4に模式的に示すように、モーラ親和性の有無の識別境界を求めることができ、モーラ親和性のデータベースを生成することができる。
次に、ハミルトニアン計算部18に接続された略語類似度計算部22について説明する。略語類似度計算部22は、複数の元文字列が入力された場合に、それらに対するそれぞれの候補文字列のモーラの類似度を計算する機能を有する。略語類似度計算部22は、候補文字列間の類似度を、候補文字列をモーラ列で表現したときのレーベンシュタイン(Levenstein)距離によって計算する。レーベンシュタイン距離は、情報理論において、二つの文字列がどの程度異なっているかを示す数値であり、具体的には、文字の挿入や削除、置換によって、一つの文字列を別の文字列に変形するのに必要な手順の最小回数として与えられる。
ハミルトニアン計算部18は、形態素内モーラ親和性評価部20、形態素間モーラ親和性評価部21、略語間類似度計算部22を用いて、設定された状態変数におけるハミルトニアンを求める。ハミルトニアン最適解探索部16は、状態変数の配位更新部17にて状態変数を変化させ、変化させた各状態変数におけるハミルトニアンを計算し、ハミルトニアンが最小となる状態変数を最適状態変数、すなわち、最適な略語として求める。出力部19は、ハミルトニアン最適解探索部16にて探索された略語を出力する。
図5〜図7は、略語生成装置1の動作について説明する図である。図5は、略語生成装置1が候補文字列の集合を生成するまでの動作を示す。図6は、候補文字列の集合から略語を決定して出力する動作を示す。図7は、図6に示すフローのうち、ハミルトニアン最適化の処理の詳細を示す。
図5に示すように、略語生成装置1は、略語の元となる元文字列と、生成すべき略語の長さの上限値の入力を受け付ける(S10)。略語生成装置1に入力する元文字列の数は、1つであっても複数であってもよい。本実施の形態では、複数の元文字列が入力された場合を例として説明する。
略語生成装置1は、入力された元文字列を形態素に分解する(S12)。続いて、分解された形態素の中から機能語を抽出し、抽出された機能語を除外して、元文字列を構成する内容語の形態素を求める(S14)。続いて、略語生成装置1は、入力された全ての元文字列について、構成要素を求める分析が完了したか否かを判定する(S16)。全ての元文字列に対する分析が完了していない場合には(S16でNO)、分析を行っていない元文字列を形態素に分解する処理に戻る(S12)。
全ての元文字列に対する分析が完了した場合には(S16でYES)、略語生成装置1は、それぞれの元文字列に対して候補文字列の集合を生成する(S18)。
続く動作について、図6を用いて説明する。略語生成装置1は、ハミルトニアンの計算のために状態変数の初期設定を行う(S20)。具体的には、略語生成装置1は、候補文字列の集合の中から一の候補文字列を選択し、その状態変数を初期状態として設定する。略語生成装置1は、ハミルトニアンの最適化の処理を行う(S22)。
図7を用いて、ハミルトニアンの最適化の処理について説明する。ハミルトニアン計算部18は、初期設定された状態変数を用いてハミルトニアンを計算し(S30)、計算によって求めたハミルトニアンが、これまでに求めたハミルトニアンの最小値か否かを判定する(S32)。初期設定された状態では、ハミルトニアンの最初の計算結果なので、ハミルトニアンが最小値であると判定する。
ハミルトニアンが最小値の場合には(S32でYES)、略語生成装置1は、ハミルトニアンの最小値を更新する処理を行う(S34)。具体的には、略語生成装置1は、求めたハミルトニアンの値を最小値として記憶しておく。次回からは、記憶された最小値と新たに計算されたハミルトニアンを比較することになる。また、略語生成装置1は、ハミルトニアンが最小値となったときの状態変数、すなわち候補文字列を最適状態変数として保存する(S36)。
続いて、略語生成装置1は、状態を更新する(S38)。すなわち、次の候補文字列を選択する。なお、ハミルトニアンの計算結果が最小値か否かの判定において、最小値ではないと判定された場合には(S32でNO)、略語生成装置1は、直ちに、この状態更新のステップS38に遷移して状態更新を行う。次に、略語生成装置1は、ハミルトニアン最適化の終了条件を満たすか否かを判定する(S40)。終了条件とは、新しい状態がない、すなわち全ての候補文字列について計算を行ったか、あるいは、ハミルトニアンの最小値が収束した場合である。
終了条件を満たさない場合には(S40でNO)、更新された状態変数を使って、ハミルトニアンを計算し(S30)、その計算結果と記憶されているハミルトニアン最小値とを比較する(S32)。計算結果が記憶されたハミルトニアン最小値より小さい場合(S32でYES)、その計算結果をハミルトニアン最小値として記憶する(S34)と共に、そのときの状態変数を最適状態変数として記憶する(S36)。そして、さらに状態の更新を行って(S38)、終了条件を満たすか否かを判定する(S40)。
終了条件を満たす場合には(S40でYES)、記憶されている最適状態変数を出力し(S42)、図6に示すフローに復帰し、初期値についてのループを行うか否かを判定する(S24)。初期値についてのループを行う場合には、状態変数の初期設定を行う(S20)。このときに設定する初期値は、当然ながら、前回までに設定した初期値とは異なる状態変数とする。そして、異なる初期値を用いてハミルトニアンの最適化を行う(S22)。
このように初期値を変えてハミルトニアンの最適化を行う理由は、最急降下法を用いて計算を行っているため、ハミルトニアンの最小値が局所ミニマムに陥ってしまい、真の最小値ではない状態変数を最適状態変数と間違ってしまうリスクを低減させるためである。状態変数をすべて代入してハミルトニアンの最小値を求める場合には、このような処理を行う必要はない。
初期値についてのループを何度か行った後、ハミルトニアンを最小にした最適状態変数を求める。この際、すべての初期値を通じて、ハミルトニアンを最小にした最適状態変数を1つだけ求めてもよいが、本実施の形態では、変更した初期値ごとにハミルトニアンを最小にした最適状態変数の中から、いくつかの最適状態変数を選択する。そして、これらの最適状態変数が表す候補文字列の組をハミルトニアンの小さい順にソートし(S26)、求められた略語の組としてディスプレイに出力する(S28)。この際、略語の組に対応するハミルトニアンの値を合わせて出力する。
以上のようにして求めた略語の組は、(1)候補文字列の長さが長いほど値が小さくなり、(2)候補文字列の長さが上限値を超えると値が極めて大きくなり、最小値を取り得ないように設定され、(3)候補文字列に含まれるモーラの親和性が高いほど値が小さくなり、(4)前記元文字列に対応する候補文字列の間のモーラの類似度が低いほど値が小さくなるようなハミルトニアンが最小値あるいは最小値に近い値となった略語であるから、所定の文字数以下で、音韻的な繋がりが良く、かつ、元文字列に対応する略語の組において、お互いに区別し易い略語である。
また、複数の略語の組をそのハミルトニアンの値と共に出力するので、ユーザは、提示された略語の組から選択することができる。
[詳細説明]
以下では、上記した本実施の形態の略語生成装置1及び略語生成方法で用いるハミルトニアンについて、具体的な数式を示して詳細に説明する。
以下、個の単語からなる元文字列の組
Figure 0005990124
に関して、各元文字列wαの略語vαを生成する方法について説明する。本実施の形態では、略語の長さ制限は、Lとする。
元文字列は、文法的な基本構成要素に分解できるものとし、さらに各基本要素は音韻的な基本構成要素に分解できるものとする。ここでは、特に、日本語を対象として、元文字列の基本構成要素として形態素を考え、音韻的な構成要素としてモーラを考えるものとする。
例えば、「地鶏の唐揚げ」という元文字列の長さは6である。これを形態素に分解すると、例えば、「地」、「鶏」、「の」、「唐」、「揚げ」という形態素が得られる。形態素は元文字列内の活用形のままであっても良いし、基本形に直したものであっても良いが、ここでは基本形に直したものを考える。さらに、形態素をモーラに分割すると、「地」は「チ」であり、「鶏」は「ト」、「リ」となり、「の」は「ノ」、「唐」は「カ」、「ラ」となり、「揚げ」は「ア」、「ゲ」となる。なお、「地」のモーラはその読み方のとおりの「ヂ」であってもよい。
元文字列の表層的な文字列表現を「表現」と呼ぶことにする。元文字列の長さをその表現における文字数として定義する。略語、形態素に関しても同様に、それらの表層的な表現における文字列数により長さを定義する。例えば、「地鶏の唐揚げ」という元文字列の長さは6である。この各形態素、「地」、「鶏」、「の」、「唐」、「揚げ」の長さは、それぞれ、1、1、1、1、2である。
以下、元文字列の長さ(後述するように、ここで長さは文字数、あるいは、それらのモーラ列の長さの和を表す)を|wα|と表す。略語の長さに関する条件は、
Figure 0005990124
となる。
略語を生成するに当たり、元文字列の構成要素から略語を構成するために、以下、記号を導入する。
まず、元文字列wαの形態素pi αへの分割を、
Figure 0005990124
と表すことにする。以下、特に断らない限り、積の記号Πにおいて、因子は左から右へ並べるものとする。
形態素は一般に、内容語と機能語とに区別することができる。例えば、名詞、動詞、副詞、形容詞などは内容語であり、助詞、助動詞などは機能語と言われる。元文字列の形態素への分割(2)において、機能語は予め排除し、内容語となる形態素のみからなっているものとする。つまり、Mαは内容語となる形態素数である。例えば、「地鶏の唐揚げ」であれば、Mα=4であり、「地・鶏・唐・揚げ」という形態素列になっているものとする。
また、形態素pi αを表現する文字列を、
Figure 0005990124
と表すことにする。ここで、Ni αは形態素pi αの文字数、つまり長さである。
さらに、文字rij αのモーラ列をρ(rij α)と表すことにする。|rij α|は、長さの定義が文字数のときは1、モーラ列の長さであるときには、1〜2である。
略語vαに、形態素pi αの一部が含まれるということをvα∩pi α≠φと表すことにする。同様に、形態素pi α内の文字rij αが、略語vαに含まれているということをvα∩rij α≠φと表すことにする。インジケータ関数μ(pi α)、ξ(rij α)を、
Figure 0005990124
と定義する。ここで、1[A]も、条件Aが満たされる場合に1、満たされない場合に0となるインジケータ関数を表している。
以下、状態変数μi α、ξij αを、
Figure 0005990124
と定義する。つまり、状態変数μi α、ξij αは、それぞれ形態素pi αと形態素pi α内の文字rij αの略語vαにおける存在の有無を表すインジケータ関数の値を表す。
可能な略語候補の全体は、これらの状態変数の全ての配位(全ての値が0となる場合、便宜的にvα=1と表し、長さ0の空文字列と解釈する。)の中で、
Figure 0005990124
が満たされるものからなる集合で与えられる。
これらの状態変数を使って、略語を次のように表すことにする:
Figure 0005990124
また、(8)(9)において、因子1は文字を繋げる役割のみを持つ記号であるものとする。つまり、
Figure 0005990124
などである。
また、略語ではしばしば元文字列における形態素の順序が入れ替えられることがある。そこで、Mα次の対称群
Figure 0005990124
の元を
Figure 0005990124
と置くと、可能な略語は
Figure 0005990124
と表すことができる。ゆえに、略語の長さは
Figure 0005990124
となる。
数式(9)あるいは(10)から、我々は略語全体の集合を状態変数(μi αij αα)の配位集合、つまり状態空間上の点へ写像することができたことに注意する。厳密には、状態空間は、
Figure 0005990124
を満たす状態変数(μi αij αα)の配位全体からなるが、以降では、簡単のための、この条件を一旦外し、状態変数(μi αij αα)の可能な配位全体を状態空間として考える。但し、後述する目的関数によって、
Figure 0005990124
を満たさないような状態は自動的に排除することができることに注意する。
以下、我々は、この状態空間上に目的関数を定義し、その目的関数について最適化することで、略語を決定する。(以下、この目的関数をハミルトニアンと呼ぶ。)
我々の略語決定の基準は、元文字列の組
Figure 0005990124
の略語組
Figure 0005990124
において、長さ制限(1)が満たされている限り、各略語vαがお互いに区別し易いことである。ゆえに、長さの制約条件が見たされている限り、略語の長さが大きいことが望ましいので、まずハミルトニアンへの第1の寄与として、次の形を考える:
Figure 0005990124
ハミルトニアン(13)は、候補文字列の長さが長いほどハミルトニアンの値が小さくなるようにする項である。状態変数(μi αij α)をスピン変数と見なすと、
Figure 0005990124
は、それらの間の相互作用の強さを表し、ハミルトニアン(13)は、強磁性相互作用をするスピン系と見なせる。)ハミルトニアン(13)は、略語vαの長さを出来るだけ大きくし、どの元文字列に関する略語であるかが分かり易くなるようにする効果を与えるものである。また、
Figure 0005990124
を満たす方向に作用することにも注意する。
さらに、長さに関する条件を次のような相互作用によって導入する:
Figure 0005990124
ここで、パラメタκの値をκ↑∞とすると、数式(15)は、
Figure 0005990124
となる。但し、ここで、Θ(x)は
Figure 0005990124
という関数である。
つまり、正値の結合定数Λ1とパラメタκの値を十分に大きくすることによって(理想的にはΛ1↑∞、κ↑∞を考えることによって)、相互作用(14)、(15)は、長さに関する制約条件が満たされるようする効果がある。つまり、ハミルトニアン(14)(15)は、候補文字列の長さが前記上限値を超えると値が最小値を取り得ないようにする項である。
ハミルトニアン(13)が強磁性相互作用を持っていたのに対し、ハミルトニアン(15)または(16)は、反強磁性相互作用を持っていることに注意する。つまり、略語の長さを短くする効果がある。
数式(15)は、数式(16)と異なり、もし状態変数(μi αij α)を連続な変数であると見なしたときに、微分可能であることに注意する。
以上から、ハミルトニアン
Figure 0005990124
に関する最適解(ハミルトニアンの値を最小化する状態)
Figure 0005990124
を求め、数式(10)へ代入することで、長さに関する制約条件を満たす略語組
Figure 0005990124
が得られる。
ハミルトニアン(18)には、モーラ間の相互作用や元文字列の間での相互作用などが入っていないので、その最適解から得られる略語組
Figure 0005990124
は、音韻的に不自然であったり、お互いに区別がし易いようになっていない可能性がある。そこで、それらの効果を与える相互作用をさらに導入する。
そのために、まず次のような記法を導入する:
Figure 0005990124
一つの形態素内で2つのモーラρ(r)、ρ(r')が連続して並ぶことの音韻的な自然さを以下ではモーラ対の形態素内親和性と呼ぶことにする。親和性が良い時には正の値、悪い時には負の値になるようにするものとする。
例えば日本語の場合、モーラの数は100個以上あるとされている。ゆえに、このとき、モーラ対の組合せは1万個以上あることになり、それら全てを定義すること不可能ではないが、多くの人手を要する。
そこで、今、モーラρ(r)を整数値で表すことにして、モーラ対の形態素内親和性も±1の2値を取るものとし、その値をΨ(ρ(r),ρ(r'))の符合sgn(Ψ(ρ(r),ρ(r')))として表すものとする。この関数を次のような識別関数で与えることを考える:
Figure 0005990124
ここで、Φ(ρ),Φ(ρ')は非線形な識別境界面を与えることを可能にするための特徴写像である。w0はバイアス項であり、w1,w2は重み係数である。今、重み係数(w1,w2)と特徴量(Φ(ρ),Φ(ρ'))をベクトルとして、
Figure 0005990124
と表すと、数式(23)は、ベクトルの内積<・,・>をつかって、次のように書ける。
Figure 0005990124
略語の事例データがあるものとして、その事例データにある一つの形態素から選ばれたモーラ例
Figure 0005990124
を学習データ(図4において、□で囲ったもの)として、数式(23)の重み係数w1,w2をそれらの特徴写像の線形和で掛けるとする:
Figure 0005990124
数式(24)を数式(23)に代入し、次を満たすカーネル関数
Figure 0005990124
を考える。つまり、数式(23)の識別関数をカーネル関数によって、次のように書けるものとする:
Figure 0005990124
ここでは先に特徴関数Φ(ρ),Φ(ρ')が定義されているとして説明したが、数式(26)によれば、特徴関数Φ(ρ),Φ(ρ')が陽に掛ける必要がないということに注意する。但し、数式(25)のカーネル関数は対称性と半正定値性を満たしているものとする。
略語の事例データから得られる学習データは、正ラベルのデータのみであるが、1クラス−サポートベクトルマシンによる学習を行うことで、数式(26)に対して、双対重み係数ωd及びバイアス項w0を決定することができる。
異なる形態素が連結する際に、接するモーラ列に対しても同様に、略語事例データを基に、モーラ対の形態素間親和性を与えることができる。今、それをφ(ρ(r),ρ(r'))と置くことにする。ここで、ρ(r)とρ(r')は、異なる形態素から選ばれたモーラである。モーラ対の形態素間親和性に関する識別関数φ(ρ(r),ρ(r'))も、モーラ対の形態素内親和性の識別関数Ψ(ρ(r),ρ(r'))と同様に、事例から決めることができることに注意する。
形態素内でのモーラ親和性が良い略語を生成するため、次のような相互作用ハミルトニアンを導入する:
Figure 0005990124
さらに、異なる形態素のモーラ親和性を良くするために、次の相互作用ハミルトニアンを導入する:
Figure 0005990124
ハミルトニアン(27)〜(30)は、候補文字列に含まれるモーラの親和性が高いほどハミルトニアンの値を小さくする項である。ハミルトニアン(27)(28)は形態素内のモーラ親和性に関する項であり、ハミルトニアン(29)(30)は形態素間のモーラ親和性に関する項である。
これまでの相互作用は一つの元文字列の略語内で閉じたものであった。次に略語間での区別のし易さを高める効果を入れるために、略語間の相互作用も導入する。
2つのモーラ列
Figure 0005990124
の間の類似度をλ(ρ(vα),ρ(vβ))と置くことにする。
ここでは、モーラの音韻的な類似度も評価するために、モーラの全体に集合を音韻的に似ているモーラのグループへ分類し、各グループを表す類似モーララベルθを導入する。今、類似モーラのグループはT種類あるものとし、ラベルはθ∈{1,2,・・・T}の整数で与えられるものとする。以降、モーラρが属する類似クラスのラベルをθ(ρ)∈{1,2,・・・T}と表すことにする。
類似モーララベル列の空間を
Figure 0005990124
とおく。但し、ここで、
Figure 0005990124
であり、{1,2,・・・T}dは、整数1、2、…Tからなる長さdの任意の列全体の集合を表す。
略語vαのモーラ列ρ(vα)を類似モーララベル列へ変換したものをθ(vα)あるいはθ(μα,ξα)と表すことにする:
Figure 0005990124
略語vαとvβとの音韻的な類似性を、類似モーララベル列としての類似性λ(θ(vα),θ(vβ))で与えることにする。類似モーララベル列の類似性として、例えばレーベンシュタイン距離などを利用することができる。レーベンシュタイン距離を類似度として用いた場合、類似度が高いほどλ(θ(vα),θ(vβ))の値は小さくなるということに注意する。
この類似度を下げる、つまりλ(θ(vα),θ(vβ))の値が大きくなるようにするために、略語間の相互作用を次のように定める:
Figure 0005990124
ハミルトニアン(31)(32)は、元文字列に対応する候補文字列の間のモーラの類似度が低いほどハミルトニアンの値を小さくする項である。
(34)式は、類似モーララベル列の類似性により定まる結合定数であり、形式上、2重の和が取られているが、実際には1つの項のみからなる。ここで類似度の対数を取ることで、略語の類似モーララベル列が一致する場合には、ハミルトニアンの値が非常に大きくなるようにしている。(もしパラメタτをτ↓0となると、略語の類似モーララベル列が同一となるものは生成されなくなる。)
一方、(36)式は、ε↓0のとき、
Figure 0005990124
となり、
Figure 0005990124
は、状態変数(μααα)の状態
Figure 0005990124
への射影演算となっていることに注意する。ゆえに、数式(33)においても、実際に寄与する項は一つだけである。
以上のように、全体としてハミルトニアンは次で与えられる:
Figure 0005990124
数式(38)の右辺第1項のハミルトニアンは、各略語が長さの条件を満たすようにスピン変数が相互作用することを与えており、右辺第2項のハミルトニアンは、略語内の音韻的な繋がりの良さと略語間の区別の容易さを与えるようにスピン変数が相互作用するようにするものである。これらの各効果の間のバランスは、各相互作用の結合定数
Figure 0005990124
の大小関係を調整することで行う。また、他の正則化パラメタκ↑∞,τ↓0,η↓0の調整も適宜行う。
また、数式(38)の右辺の各項は、状態変数(μααα)に関する微分可能な関数で与えられていることに注意する。
状態空間
Figure 0005990124
から、ハミルトニアン(38)を最小化する状態を求めるには、総当り的に各状態でのハミルトニアンの値を求めて、最小値を求めることができる。元文字列の数及び元文字列の長さがそれほど大きくない限り、この直接的な解法で十分である。
それ以外に、スピン変数の値を連続値に緩和し、ハミルトニアン(32)について最急降下法的に最適解の近似解を求め、その近似解に最も近い状態(μααα)を求めることによっても、最適解の近似解を効率良くできる。問題が大規模な場合には、この方法も有効である。このように組合せ的な問題を解析的な手法によって扱うことができるようにした点が、本手法における大きな利点であることに注意する。この場合、異なる初期状態から近似解を複数構成し、その内、もっともハミルトニアンの値が小さいものを最適解として出力する。
また、数式(38)を統計力学モデルのハミルトニアンと解釈し、モンテカルロ法、特に、アニーリング法などを利用して、最適解の近似解を構成することもできる。この場合にも、最急降下法の場合と同様に、複数の近似解を探索し、それぞれにおけるハミルトニアンの値がもっとも小さいものを最適解として出力する。
これらの手法を用いると、最適解やその次に最適となる解を順次得られるので、それらの解から、略語組の候補を複数提示することもできる。その際に、各解のハミルトニアンの値を略語組のスコアとして、そのスコアでソートして略語組としての良さを表現することができることに注意する。
[候補文字列の集合に制約条件を課す方法]
以上では、任意の略語を対象に最適なものを探索する方法について説明した。しかし、現実には、略語を作成する場合に形態素の先頭の文字が省略されることはほとんどない。
そこで、自然な制約条件として、形態素の先頭の文字は必ず使用するものとすると、この制約は次のように表現することができる:
Figure 0005990124
つまり、変数μi αは変数ξi1 αで代用可能となり省略可能である。このことにより、探索すべき状態空間を
Figure 0005990124
からより低次元の状態空間
Figure 0005990124
へ縮小することができる。つまり、状態空間のサイズは
Figure 0005990124
に縮小できる。
さらに、形態素の置換に関しても通常は考えに入れる必要はないが、強いて言えば最後の形態素を先頭へ移動する程度である。このようにすることで、さらに低次元の状態空間
Figure 0005990124
へ縮小することができる。つまり、状態空間のサイズはさらに、
Figure 0005990124
に縮小できる。
以上の制約を導入することで、探索する状態空間のサイズは、全部で
Figure 0005990124
に縮小される。
状態空間
Figure 0005990124
におけるハミルトニアンは、以下のようになる。まず、略語の表記は
Figure 0005990124
となり、ハミルトニアンの各項を全て書き直すと、
Figure 0005990124
このように、ハミルトニアンの数式も単純化されるので、計算コストが削減されることに注意する。
以上、モーラを有する日本語を事例として略語生成の実施形態を説明してきたが、本発明の適用はこのようなモーラを有する言語に制限されるものではないことに注意する。モーラが存在しない場合には、音節などの他の音韻的な構成単位を考えることで、上記の実施事例と同じく略語生成を行うことが可能である。
また、ある形態素の一部が略語に含まれるとき、その形態素の最初のモーラが必ず含まれると仮定したが、この仮定は必須ではなく、この仮定を外しても、本実施例に説明した手順と同様に略語生成が可能である。
本発明は、各元文字列から所定の文字数以下で、音韻的にも繋がりの良い略語を生成することが可能となり、かつ元文字列が複数である場合には、略語組において、各略語がお互いに区別し易い略語となるようにすることができるという効果を有し、簡潔な文章を生成する必要がある情報提供システムあるいは略称を含む文章に対して、略称の原語や異なる略称を検索語として文書検索が行うことができるような情報検索システム、あるいは、文章から所定の情報を略語が使われていても抽出することができるような情報抽出システム、音声コマンドを用いる音声認識システム、あるいは文章を簡潔にまとめる文書要約システムなどに有用である。
1 略語生成装置
10 入力部
11 構成要素分析部
12 形態素分析部
13 機能語抽出部
14 機能語定義部
15 略語候補生成部
16 ハミルトニアン最適解探索部
17 状態変数の配位更新部
18 ハミルトニアン計算部
19 出力部
20 形態素内モーラ親和性評価部
21 形態素間モーラ親和性評価部
22 略語間類似度計算部
23 形態素内モーラ親和性データベース
24 形態素間モーラ親和性データベース
25 略語コーパス
26 学習部
27 モーラ定義部
30 CPU
31 RAM
32 ROM
33 プログラム
34 キーボード
35 マウス
36 ディスプレイ
37 スピーカ
38 ハードディスク
39 通信部
40 データバス

Claims (11)

  1. 略語の生成対象となる元文字列と、生成すべき略語の長さの上限値を入力する入力部と、
    前記元文字列を形態素に分解し、分解した形態素から機能語を除いた形態素を抽出する構成要素分析部と、
    前記構成要素分析部にて抽出された形態素またはその一部を組み合わせて構成される候補文字列の集合を生成し、前記元文字列のそれぞれの形態素について、前記候補文字列がその一部を含むか否かを示す第1のインジケータ関数と、前記候補文字列が前記元文字列のそれぞれの文字を含むか否かを示す第2のインジケータ関数とを状態変数とし、前記集合に含まれる前記候補文字列を前記状態変数で表す略語候補生成部と、
    略語の事例データを用いた学習によって求めた略語内で任意の二つのモーラが並ぶ可能性を表すモーラ親和性のデータを記憶したモーラ親和性データ記憶部と、
    前記状態変数を変数とする目的関数であって、(1)前記候補文字列の長さが長いほど値が小さくなり、(2)前記候補文字列の長さが前記上限値を超えると値が最小値を取り得ないように設定され、(3)前記候補文字列に含まれるモーラについて、前記モーラ親和性データ記憶部に記憶されたデータに基づいて計算されるモーラの親和性が高いほど値が小さくなる目的関数、の値を最小にする候補文字列を前記候補文字列の集合の中から求める最適解探索部と、
    前記最適解探索部で求めた候補文字列を出力する出力部と、
    を備える略語生成装置。
  2. 前記最適解探索部は、前記目的関数を最小にする候補文字列に加え、前記目的関数を最小にする方から所定個数の候補文字列を求め、
    前記出力部は、所定個数の候補文字列と、それに対応する前記目的関数の値を出力する請求項1に記載の略語生成装置。
  3. 前記入力部は、略語の生成対象となる複数の元文字列を入力し、
    前記目的関数は、前記(1)〜(3)に加えて、(4)前記元文字列に対応する候補文字列の間のモーラの類似度が低いほど値が小さくなる目的関数であり、
    前記最適解探索部は、前記元文字列に対応する候補文字列の組のうち、前記目的関数を最小にする組を求め、
    前記出力部は、前記候補文字列の組を出力する請求項1に記載の略語生成装置。
  4. 前記最適解探索部は、前記目的関数を最小にする候補文字列に加え、目的関数を最小にする方から所定個数の候補文字列の組を求め、
    前記出力部は、所定個数の候補文字列の組と、それに対応する前記目的関数の値を出力する請求項3に記載の略語生成装置。
  5. 前記目的関数における候補文字列間の類似度の計算には、レーベンシュタイン距離を用いる請求項3または4に記載の略語生成装置。
  6. 前記目的関数は、候補文字列に含まれる形態素間のモーラ親和性と形態素内のモーラ親和性を計算する請求項1乃至5のいずれかに記載の略語生成装置。
  7. 前記略語候補生成部は、元文字列に含まれる形態素の順序を保った候補文字列の集合を生成する請求項1乃至6のいずれかに記載の略語生成装置。
  8. 前記略語候補生成部は、元文字列に含まれる最初の形態素を先頭に持つ候補文字列の集合を生成する請求項1乃至7のいずれかに記載の略語生成装置。
  9. 前記最適化探索部は、最急降下法、モンテカルロ法、または、アニーリング法を用いて、目的関数を最小にする候補文字列を求める請求項1乃至8のいずれかに記載の略語生成装置。
  10. 略語生成装置によって略語を生成する方法であって、
    前記略語生成装置が、略語の生成対象となる元文字列と、生成すべき略語の長さの上限値を入力するステップと、
    前記略語生成装置が、前記元文字列を形態素に分解し、分解した形態素から機能語を除いた形態素を抽出するステップと、
    前記略語生成装置が、抽出された形態素またはその一部を組み合わせて構成される候補文字列の集合を生成し、前記元文字列のそれぞれの形態素について、前記候補文字列がその一部を含むか否かを示す第1のインジケータ関数と、前記候補文字列が前記元文字列のそれぞれの文字を含むか否かを示す第2のインジケータ関数とを状態変数とし、前記集合に含まれる前記候補文字列を前記状態変数で表すステップと、
    前記略語生成装置が、略語の事例データを用いた学習によって求めた略語内で任意の二つのモーラが並ぶ可能性を表すモーラ親和性のデータをモーラ親和性データ記憶部に記憶するステップと、
    前記略語生成装置が、前記状態変数を変数とする目的関数であって、(1)前記候補文字列の長さが長いほど値が小さくなり、(2)前記候補文字列の長さが前記上限値を超えると値が最小値を取り得ないように設定され、(3)前記候補文字列に含まれるモーラについて、前記モーラ親和性データ記憶部に記憶されたデータに基づいて計算されるモーラの親和性が高いほど値が小さくなる目的関数、の値を最小にする候補文字列を前記候補文字列の集合の中から求めるステップと、
    前記略語生成装置が、求めた候補文字列を出力するステップと、
    を備える略語生成方法。
  11. 略語を生成するためのプログラムであって、コンピュータに、
    略語の生成対象となる元文字列と、生成すべき略語の長さの上限値を入力するステップと、
    前記元文字列を形態素に分解し、分解した形態素から機能語を除いた形態素を抽出するステップと、
    抽出された形態素またはその一部を組み合わせて構成される候補文字列の集合を生成し、前記元文字列のそれぞれの形態素について、前記候補文字列がその一部を含むか否かを示す第1のインジケータ関数と、前記候補文字列が前記元文字列のそれぞれの文字を含むか否かを示す第2のインジケータ関数とを状態変数とし、前記集合に含まれる前記候補文字列を前記状態変数で表すステップと、
    略語の事例データを用いた学習によって求めた略語内で任意の二つのモーラが並ぶ可能性を表すモーラ親和性のデータをモーラ親和性データ記憶部に記憶するステップと、
    前記状態変数を変数とする目的関数であって、(1)前記候補文字列の長さが長いほど値が小さくなり、(2)前記候補文字列の長さが前記上限値を超えると値が最小値を取り得ないように設定され、(3)前記候補文字列に含まれるモーラについて、前記モーラ親和性データ記憶部に記憶されたデータに基づいて計算されるモーラの親和性が高いほど値が小さくなる目的関数、の値を最小にする候補文字列を前記候補文字列の集合の中から求めるステップと、
    求めた候補文字列を出力するステップと、
    を実行させるプログラム。
JP2013065008A 2013-03-26 2013-03-26 略語生成装置、略語生成方法、及びプログラム Expired - Fee Related JP5990124B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2013065008A JP5990124B2 (ja) 2013-03-26 2013-03-26 略語生成装置、略語生成方法、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013065008A JP5990124B2 (ja) 2013-03-26 2013-03-26 略語生成装置、略語生成方法、及びプログラム

Publications (2)

Publication Number Publication Date
JP2014191490A JP2014191490A (ja) 2014-10-06
JP5990124B2 true JP5990124B2 (ja) 2016-09-07

Family

ID=51837711

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013065008A Expired - Fee Related JP5990124B2 (ja) 2013-03-26 2013-03-26 略語生成装置、略語生成方法、及びプログラム

Country Status (1)

Country Link
JP (1) JP5990124B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115017899B (zh) * 2022-04-19 2023-03-31 北京三快在线科技有限公司 一种缩略语生成方法、装置、设备及存储介质
CN116976320B (zh) * 2023-09-22 2023-12-15 湖南财信数字科技有限公司 机构简称提取方法、装置、计算机设备及存储介质

Also Published As

Publication number Publication date
JP2014191490A (ja) 2014-10-06

Similar Documents

Publication Publication Date Title
CN111444320A (zh) 文本检索方法、装置、计算机设备和存储介质
WO2007135996A1 (ja) 文字列更新量評価プログラム
Raychev et al. Language-independent sentiment analysis using subjectivity and positional information
JP5809381B1 (ja) 自然言語処理システム、自然言語処理方法、および自然言語処理プログラム
Banik et al. Gru based named entity recognition system for bangla online newspapers
Nguyen et al. OCR error correction using correction patterns and self-organizing migrating algorithm
Ahmed et al. FLAG-PDFe: Features oriented metadata extraction framework for scientific publications
CN116258137A (zh) 文本纠错方法、装置、设备和存储介质
JP5441937B2 (ja) 言語モデル学習装置、言語モデル学習方法、言語解析装置、及びプログラム
JP2020106880A (ja) 情報処理装置、モデル作成方法及びプログラム
JP5990124B2 (ja) 略語生成装置、略語生成方法、及びプログラム
Mahmoodvand et al. Semi-supervised approach for Persian word sense disambiguation
Angeli et al. Stanford’s distantly supervised slot filling systems for KBP 2014
Sanyal et al. Natural language processing technique for generation of SQL queries dynamically
Deka et al. A study of t’nt and crf based approach for pos tagging in assamese language
JP4567025B2 (ja) テキスト分類装置、テキスト分類方法及びテキスト分類プログラム並びにそのプログラムを記録した記録媒体
WO2021181719A1 (ja) 言語処理装置、学習装置、言語処理方法、学習方法、及びプログラム
CN114579763A (zh) 一种针对中文文本分类任务的字符级对抗样本生成方法
JP6062816B2 (ja) 形態素解析器生成装置、形態素解析器生成方法、及び、プログラム
JP2016133956A (ja) 形態素解析モデル生成装置、形態素解析モデル生成方法、及び、プログラム
WO2014030258A1 (ja) 形態素解析装置、テキスト分析方法、及びそのプログラム
Ashraf et al. BFCAI at SemEval-2022 task 6: Multi-layer perceptron for sarcasm detection in Arabic texts
Testas Natural Language Processing with Pandas, Scikit-Learn, and PySpark
KR20200057206A (ko) 문서 내 언급되지 않은 정보를 가시화하기 위한 방법 및 시스템
Hsiao et al. Extracting bibliographical data for PDF documents with HMM and external resources

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20150907

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20151113

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20160729

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20160809

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20160812

R150 Certificate of patent or registration of utility model

Ref document number: 5990124

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees