JP5154535B2 - スコア付形態素辞書の生成装置、方法、及びプログラム - Google Patents

スコア付形態素辞書の生成装置、方法、及びプログラム Download PDF

Info

Publication number
JP5154535B2
JP5154535B2 JP2009295300A JP2009295300A JP5154535B2 JP 5154535 B2 JP5154535 B2 JP 5154535B2 JP 2009295300 A JP2009295300 A JP 2009295300A JP 2009295300 A JP2009295300 A JP 2009295300A JP 5154535 B2 JP5154535 B2 JP 5154535B2
Authority
JP
Japan
Prior art keywords
domain
score
word
scores
morpheme
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2009295300A
Other languages
English (en)
Other versions
JP2011134247A (ja
Inventor
慶 内海
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yahoo Japan Corp
Original Assignee
Yahoo Japan Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yahoo Japan Corp filed Critical Yahoo Japan Corp
Priority to JP2009295300A priority Critical patent/JP5154535B2/ja
Publication of JP2011134247A publication Critical patent/JP2011134247A/ja
Application granted granted Critical
Publication of JP5154535B2 publication Critical patent/JP5154535B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Description

本発明は、スコア付形態素辞書の生成装置、方法、プログラム、及びデータ構造に関する。
従来、各種各様の形態素の中から基本語として選択された約30,000語に対して、ドメインが関連付けられて登録されているドメイン辞書が知られている。ドメイン辞書においては、例えば、「教科書」という基本語に対して<教育・学習>というドメインが関連付けられ、また、「包丁」という基本語に対して<料理・食事>というドメインが関連付けられている。
このようなドメイン辞書において、基本語にドメインを付与する(関連付ける)方法として、ドメイン手掛かり語(以下、「手掛かり語」と略称する)を用いる次のような方法が提案されている。即ち、まず、各々のドメインに対して複数の手掛かり語を予め付与しておく。次に、ドメインを付与したい基本語について、当該手掛かり語との関連度(Akスコア)を計算し、その結果に基づいて当該基本語について、各ドメインとの関連度(Adスコア)を計算し、当該基本語には、最もAdスコアの高いドメインを付与する。
このような基本語へのドメインの付与においては、何れのドメインをも付与すべきでない「ドメイン無し」とすべき基本語が存在する一方で、複数のドメインを付与すべき基本語も存在することが知られている。
具体的には、例えば、基本語の一例である「委員」や「組織」は「ドメイン無し」に該当し、別の基本語の一例である「大学院」は<教育・学習>及び<科学・技術>の双方のドメインに該当し、別の基本語の一例(多義語)である「ボール」は<スポーツ>及び<料理・食事>の双方のドメインに該当する。
このような判断は次のような基準に基づいて行われている。即ち、何れのドメインについてのAdスコアも所定の閾値以下の基本語は「ドメイン無し」と判断し、複数のドメインについてのAdスコアが同程度の基本語には当該複数のドメインを付与する(非特許文献1)。
橋本、黒橋、"基本語ドメイン辞書の構築と未知語ドメイン推定を用いたブログ自動分類法への応用"、自然言語処理、第15巻、第5号、73〜97ページ、平成20年10月
このような「ドメイン無し」の判断や複数ドメインの判断においては、解決すべき課題が残されている。
具体的には、上述の従来技術が、基本語に所定のドメインを付与する(より具体的には「ドメイン無し」及び複数ドメインを含む)プロセスを基本としているため、その判断基準である閾値の設定により作成される辞書の性格が大きく左右される。即ち少し閾値が異なるだけで、所定の基本語についてドメイン無しであったものが所定のドメインが付与されたり、所定の基本語について複数ドメインに入るか否かの判断も変化したりすることになる。さらに、この閾値の調整のために、Web検索でのヒット数とAdスコアの関係に対して人手で教師データを作成する必要がある。
さらに、このような従来技術のドメイン辞書を用いた処理、例えば未知語ドメイン推定処理が実行される場合には、別の課題も生ずる。即ち、上述の従来技術では、未知語をクエリとしてWeb検索した場合にヒットしたWebコンテンツから、未知語と関連する複数の基本語が抽出され、これらの複数の基本語に付与されたドメインに基づいて未知語のドメインが推定される。より具体的には、Webコンテンツから抽出された複数の基本語毎にIDF値が新たに演算される。ここで、IDF値は、Webの情報のみに基づいて演算されており、基本語とドメインの関係を直接数値化できているわけではないので、未知語のドメイン推定時にこのようなIDF値を使用することは適切ではない。
そこで、本発明は、このような「ドメイン無し」や複数ドメインの判断を含むドメイン付与の判断のための閾値の調整に左右されることなく、かつ、未知語ドメイン推定処理等の精度を向上させるべく、各基本語(形態素)について全てのドメインとの関係を適切に表現し、管理することの出来るスコア付形態素辞書の生成装置、方法、プログラム、及びデータ構造を提供することを目的とする。
ここで、スコア付形態素辞書とは、形態素(上述の基本語を含んでもよい)に対して、所定のスコア、例えばドメインとの関連度を示すドメインスコアが関連付けられて登録される辞書をいう。即ち、スコア付形態素辞書は、基本語に対してドメイン自体が関連付けられる従来技術のドメイン辞書とは異なる概念の辞書である。
本発明では、具体的には以下のようなものを提供する。
(1)所定の形態素に対して、所定の複数のドメインスコアが関連付けられて登録されるスコア付形態素辞書の生成装置であって、
所定の形態素を基本語とし、所定のドメインに予め関連付けられている1以上の手掛かり語毎に、前記基本語との関連度を示す手掛かり語スコアをそれぞれ算出する処理を、所定の複数のドメイン毎に実行する手掛かり語スコア算出手段と、
前記手掛かり語スコア算出手段により算出された1以上の前記手掛かり語スコアの少なくとも一部に基づいて、前記基本語と前記複数のドメインの各々との関連度を、前記複数のドメインスコアの各々として算出するドメインスコア算出手段と、
前記複数のドメインを1つずつ処理対象とし、前記ドメインスコア算出手段により算出された前記処理対象のドメインスコアと前記複数のドメインスコア全体との関係に基づいて、前記処理対象の前記ドメインスコアを補正し、補正後の前記複数のドメインスコアを前記基本語と関連付けて前記スコア付形態素辞書に登録するドメインスコア補正手段と
を備え
前記処理対象のドメインスコアと前記複数のドメインスコア全体との関係は、前記複数のドメインスコアの総和に対する、前記処理対象のドメインスコアの割合により示される
スコア付形態素辞書の生成装置。
本願明細書に記載の「形態素」とは、言語学において、意味をもつ最小の単位をいう。文法上の「単語」も形態素の1つである。本願明細書に記載の「基本語」とは、所定の手法により選択された所定数の単語の各々をいう。後述する本実施形態では、JUMAN(黒橋、河原 2005)に収録された内容語約30,000語が、基本語として採用されている。
本願明細書に記載の「ドメイン」とは、単語が使用される背景的な分類又は定義域を指す。ドメインは、通常は、階層的関係を含まない並立的な分類である。所定のドメインには、それに属すると判断された1以上の単語が関連付けられている。このような単語が、本願明細書に記載の「手掛かり語」である。この関連付けは、通常は、手作業で行われる。例えば後述する本実施形態では、Web高頻度語リストの上位の単語の中から、人の判断により、所定のドメインに属する20乃至30語の単語が、手掛かり語として予め選択されている。
本発明のこのような構成によれば、本発明に係るスコア付形態素辞書の生成装置は、「ドメイン無し」や複数ドメインの判断を含むドメイン付与の判断のための閾値の調整に左右されることなく、かつ、未知語ドメイン推定処理等の精度を向上させるべく、各基本語(形態素)について全てのドメインとの関係を適切に表現し、管理することの出来るスコア付形態素辞書を生成することができる。補正後のドメインスコアは、補正前のドメインスコアと比較して、対応する基本語(形態素)について全てのドメインとの関係をより一段と適切に表現したものになる。
)前記手掛かり語スコアは、カイ二乗値に基づく指標値であり、
前記ドメインスコア算出手段は、上位M個(Mは、ドメインに関連付けられている手掛かり語の総数以下の整数値)の前記手掛かり語スコアの各々のファイ係数の平均を、前記ドメインスコアとして算出する
(1)に記載のスコア付形態素辞書の生成装置。
本発明のこのような構成によれば、手掛かり語スコアのファイ係数は、正規化されて0乃至1の間の値となるので、この平均をドメインスコアとして算出することにより、各々のドメインスコアの大小関係を崩すことなく、ドメインスコアを0乃至1の間に収めることが出来る。したがって、この正規化されたドメインスコアを補正して作成したスコア付形態素辞書を用いることにより、未知語ドメインの推定処理の際の計算回数を適切に抑制し、精度を落とすことなくより効率的に処理を行うことが出来る。さらに、基本語が複数のドメインにまたがるものであっても、その関係を適切に表現し、従来のように大きく精度が悪くなることもない。また、Webのサブセットから学習用のコーパスを作成することもないので、ナイフ・ベイズやベクタースペースモデルのように、正解タグの与えられている少数のクエリの周辺語彙のみでモデルを作る結果、モデルがスパースになることもない。その結果、(1)の効果がより顕著なものとなる。
さらに、本発明では、(1)に係る生成装置に対応する方法及びプログラム提供する。これにより、(1)と同様の効果が期待できる。
本発明によれば、「ドメイン無し」や複数ドメインの判断を含むドメイン付与の判断のための閾値の調整に左右されることなく、かつ、未知語ドメイン推定処理等の精度を向上させるべく、各基本語(形態素)について全てのドメインとの関係を適切に表現し、管理することの出来るスコア付形態素辞書を生成することができる。
本発明に係るスコア付形態素辞書生成装置を含む文章処理システムの一実施の形態の機能的構成を示す機能ブロック図である。 図1の文章処理システムのドメイン/手掛かり語データベースのデータ構造を例示する図である。 図1の文章処理システムのスコア付形態素辞書のデータ構造を例示する図である。 図1の文章処理システムのスコア付形態素辞書生成装置が実行するスコア付形態素辞書生成処理を例示するすフローチャートである。 図1の文章処理システムのスコア付形態素辞書生成装置が実行するスコア付形態素辞書生成処理を例示するすフローチャートである。 本発明に係る文章処理システムの一実施の形態であって、図1とは異なる形態の機能的構成を示す機能ブロック図である。 基本語、補正前のドメインスコア、及び、補正後のドメインスコアの具体例を示す図である。 図6の文章処理システムの未知語ドメイン推定装置の処理の概要を説明する模式図である。
以下、本発明の実施形態について説明する。なお、これはあくまでも一例であって、本発明の技術的範囲はこれに限られるものではない。
本実施形態は、コンピュータ及びその周辺装置に適用される。本実施形態における各部は、コンピュータ及びその周辺装置が備える、ハードウェア及び該ハードウェアを制御するソフトウェアによって構成される。
上記ハードウェアには、制御部としてのCPU(Central Processing Unit)の他、記憶部、通信装置、表示装置及び入力装置が含まれる。記憶部としては、例えば、メモリ(RAM:Random Access Memory、ROM:Read Only Memory等)、ハードディスクドライブ(HDD:Hard Disk Drive)及び光ディスク(CD:Compact Disk、DVD:Digital Versatile Disk等)ドライブが挙げられる。通信装置としては、例えば、各種有線及び無線インターフェース装置が挙げられる。表示装置としては、例えば、液晶ディスプレイ、プラズマディスプレイ等の各種ディスプレイが挙げられる。入力装置としては、例えば、キーボード及びポインティング・デバイス(マウス、トラッキングボール等)が挙げられる。
上記ソフトウェアには、上記ハードウェアを制御するコンピュータ・プログラムやデータが含まれる。コンピュータ・プログラムやデータは、記憶部により記憶され、制御部により適宜実行、参照される。また、コンピュータ・プログラムやデータは、通信回線を介して配布されることも可能であり、CD−ROM等のコンピュータ可読媒体に記録して配布されることも可能である。
図1は、本発明に係る文章処理システムの一実施の形態の機能的構成を示す機能ブロック図である。
文章処理システム10は、スコア付形態素辞書生成装置110と、ドメイン/手掛かり語データベース120と、基本語データベース130と、スコア付形態素辞書140とを備える。
スコア付形態素辞書生成装置110は、ドメイン/手掛かり語データベース120と、基本語データベース130とを用いて、スコア付形態素辞書140を生成する。なお、スコア付形態素辞書生成装置110の構成要素等の詳細については後述する。
ドメイン/手掛かり語データベース120は、ドメインを特定する情報と、当該ドメインに関連付けられた1以上の手掛かり語とをドメイン毎に格納している。
図2は、ドメイン/手掛かり語データベース120のデータ構造を例示する図である。
本実施形態において、ドメイン/手掛かり語データベース120は行列構造を有しているため、以下、図2中横方向の項目の集合体を「行」と称し、同図中縦方向の項目の集合体を「列」と称する。所定の行には、所定のドメインが対応付けられている。即ち、所定の行には、当該行に対応するドメインについての、「ドメインID」、「ドメイン名」、及び「手掛かり語」という項目がそれぞれ配置されている。
所定の行の「ドメインID」及び「ドメイン名」には、当該行に対応するドメインを特定する情報として、次のような情報が格納される。
即ち、所定の行の「ドメインID」には、当該行に対応するドメインを一意に識別するためのID(Identification)が格納される。本実施形態では、「ドメインID」に格納されたIDが、後述する各種演算におけるドメイン番号i又はyとして用いられる。
所定の行の「ドメイン名」には、当該行に対応するドメインの名称が格納される。例えば1行目のドメインの名称、即ち、「ドメインID」が「001」のドメインの名称は、1行目の「ドメイン名」に格納されている「科学技術」である。なお、「科学技術」の他、「芸術」、「ビジネス」、及び「スポーツ」といった図2に示す名称は例示であり、ドメインの名称は、特にこれらに限定されず任意でよい。
所定の行の「手掛かり語」には、当該行に対応するドメインに対して、手掛かり語として予め関連付けられた1以上の形態素が格納される。例えば1行目のドメインに関連付けられた手掛かり語、即ち、「ドメインID」が「001」であって、「ドメイン名」が「科学技術」のドメインに関連付けられた手掛かり語は、1行目の「手掛かり語」に格納されている、「研究」、「開発」、「実験」、・・・といった形態素である。なお、図2に示す手掛かり語は例示であり、各ドメインに手掛かり語を関連付ける手法や、手掛かり語の個数は、特にこれに限定されず任意でよい。
なお、ドメイン/手掛かり語データベース120は、図2に示す行列構造に特に限定されず、ドメインと手掛かり語とが関連付けられていれば、任意の構造を取ることができる。また、ドメイン/手掛かり語データベース120の配置位置は、本実施形態では文章処理システム10内とされているが、特にこれに限定されず、例えばネットワーク30上の図示せぬ他の装置内等、任意の場所でよい。
図1に戻り、基本語データベース130は、各種各様の形態素の中から選択された1以上の基本語を格納している。なお、基本語の選択手法や、基本語の個数は、特に限定されない。
スコア付形態素辞書140は、基本語データベース130に格納された1以上の基本語の各々に対して、スコア付形態素辞書生成装置110により算出された複数のドメイン毎のドメインスコアを関連付けて登録する。
図3は、スコア付形態素辞書140のデータ構造を例示する図である。
本実施形態において、スコア付形態素辞書140は行列構造を有しているため、以下、図3中横方向の項目の集合体を「行」と称し、同図中縦方向の項目の集合体を「列」と称する。所定の行には、所定の基本語(形態素)が対応付けられている。即ち、所定の行には、当該行に対応する基本語についての、「形態素ID」、「形態素情報」、及び「ドメインスコア」という項目がそれぞれ配置されている。
所定の行の「形態素ID」には、当該行に対応する基本語を一意に識別するためのIDが格納される。
所定の行の「形態素情報」には、当該行に対応する基本語についての、「表記」、「読み」、及び「品詞」が配列形式で格納される。例えば「形態素ID」が「023」となっている行の「形態素情報」には、「この この 連体詞」が格納されている。したがって、「形態素ID」が「023」の基本語は、表記が「この」であり、読みが「この」であり、品詞が「連体詞」である。なお、図3に示す形態素情報は例示であり、情報の種類、属性、個数等は特に限定されない。
所定の行の「ドメインスコア」には、当該行に対応する基本語に対して、複数のドメイン毎に付与されたドメインスコアがそれぞれ格納される。即ち、本実施形態では、スコア付形態素辞書生成装置110は、1つの基本語につき、上述のドメイン/手掛かり語データベース120に設定されている全てのドメイン、即ち、「ドメインID」が付与されている全てのドメインの各々とのドメインスコアを算出する。この算出結果が、スコア付形態素辞書140の対応する行の「ドメインスコア」に格納される。
例えば「形態素ID」が「023」の行の「ドメインID」には、「0.06,0.4,0.12,0.3,・・・」が格納されている。したがって、「形態素ID」が「023」であって「表記」が「この」という基本語については、「ドメインID」が「001」のドメインのドメインスコアが「0.06」である。以下同様に、「ドメインID」が「002」のドメインのドメインスコアが「0.4」である。「ドメインID」が「003」のドメインのドメインスコアが「0.12」である。「ドメインID」が「004」のドメインのドメインスコアが「0.3」である。なお、同項目中「・・・」は、「ドメインID」が「004」以降のドメインの各々のドメインスコアを示している。
なお、「ドメインスコア」には、非特許文献1に開示されているAdスコアが格納されてもよいし、後述する式(3)の補正前のドメインスコアAdi1/2が格納されてもよい。ただし、後述するように、未知語ドメイン推定処理等を実行する場合に用いるドメインスコアとしては、後述する式(4)の補正後のドメインスコアAdi2/2が好適である。このため、本実施形態では、後述する式(4)の補正後のドメインスコアAdi2/2が「ドメインスコア」に格納されている。
また、スコア付形態素辞書140は、図3に示す行列構造に特に限定されず、基本語毎に、全てのドメインのドメインスコアが格納されていれば、任意の構造を取ることができる。例えば、スコア付形態素辞書140は、「形態素ID」及び「ドメインスコア」のみの項目を有する構造としてもよい。この場合、スコア付形態素辞書140に対して、「形態素情報」の情報又はそれを生成可能な情報が格納されている別のデータベースを対応付けることもできる。また、スコア付形態素辞書140の配置位置は、本実施形態では文章処理システム10内とされているが、特にこれに限定されず、例えばネットワーク30上の図示せぬ他の装置内等、任意の場所でよい。
図1に戻り、文章処理システム10の少なくとも一部は、ネットワーク30を介してWebコンテンツ40にアクセスすることが可能であり、ネットワーク30を介してユーザ端末20と接続することで各種情報を授受することが可能になる。
ネットワーク30は、本実施形態ではインターネットであるが、特にこれに限定されず、任意のネットワークでよい。或いはまた、ネットワーク30は省略可能である。即ち、文章処理システム10は、ネットワーク30を介在せずに、Webコンテンツ40に直接アクセスしてもよいし、ユーザ端末20と直接通信してもよい。
Webコンテンツ40は、本実施形態ではネットワーク30を介してアクセス可能な各種各様のコンテンツを表している。より具体的には、Webコンテンツ40は、本実施形態ではブログやホームページ等で構成される。ただし、Webコンテンツ40は、1以上の形態素を抽出可能なコンテンツであれば、特にこれらに限定されない。
ユーザ端末20は、ユーザにより操作される端末であり、例えば、文章処理システム10の各種処理を適宜制御することができる。
次に、本発明に係るスコア付形態素辞書生成装置110の構成要素について説明する。
スコア付形態素辞書生成装置110は、手掛かり語スコア算出部210と、ドメインスコア算出部220と、ドメインスコア補正部230とを備える。
ここで、ドメイン/手掛かり語データベース120にはN個(Nは1以上の整数値)のドメインが設定されており、N個のドメインには、「ドメインID」に格納されるIDを示す番号(以下、適宜「ドメイン番号」と称する)として、1乃至Nの各々が付されているとする。したがって、以下、ドメイン番号がi(iは、1乃至Nのうちの何れかの整数値)であるドメインを、「i番のドメイン」と称する。
この場合、手掛かり語スコア算出部210は、基本語データベース130に格納された1以上の基本語のうちの1つを、第1の形態素wとして取得する。また、手掛かり語スコア算出部210は、i番のドメインに関連付けられた1以上の手掛かり語のうちの1つを、第2の形態素kとしてドメイン/手掛かり語データベース120から取得する。そして、手掛かり語スコア算出部210は、第1の形態素wと第2の形態素kとの関連度を示すスコアを算出する。なお、以下、かかるスコアを、「手掛かり語スコア」又は「Akスコア」と称する。ただし、以下の説明では、非特許文献1の従来技術との比較を容易なものとすべく、「Akスコア」という呼称を主に使用する。
Akスコアは、第1の形態素wと第2の形態素kとの関連度を示す値であれば特に限定されず、例えば、相互情報量、Dice係数、jaccard係数に基づく値を採用してもよい。ただし、本実施形態では、コーパスにおいてよく共起する語ほど関連度が高いという前提のもと、Akスコアとして、カイ二乗値に基づく指標値が採用されている。実際に、相互情報量、Dice係数、jaccard係数等に基づく別の値と比較すると、カイ二乗値に基づく指標値の方が最適な関連度を示すことが判明している(非特許文献1参照)。具体的には本実施形態では、次の式(1)にしたがって、第1の形態素wと第2の形態素kとのAkスコアが算出される。
Figure 0005154535
・・・(1)
式(1)において、nは、ネットワーク30上のWebコンテンツ40の総数を示している。本実施形態では、nとして、日本語のWebコンテンツ40の総数の概略である「10,000,000,000」が採用されている。このように、本実施形態ではコーパスとしてWebコンテンツ40が採用されている。ただし、コーパスは、特にこれに限定されず、任意でよい。
また、式(1)に示すa乃至dは、次の式(2)により演算される。
Figure 0005154535
・・・(2)
式(2)において、hits(q)は、単語qをクエリとしてネットワーク30上のWebコンテンツ40の検索を行った場合のヒット数を示している。ここでは、クエリとなる単語qとしては、基本語である第1の形態素wと、手掛かり語である第2の形態素kとが用いられる。なお、hits(w&k)とは、第1の形態素wと第2の形態素kとの両者をクエリとして、アンド条件(両クエリとも含まれる条件)により検索を行った場合のヒット数を示している。即ち、hits(w&k)とは、第1の形態素wと第2の形態素kとの共起数を示していると把握することもできる。
本実施形態では、手掛かり語スコア算出部210は、1つの基本語(第1の形態素w)に対して、i番のドメインに関連付けられた1以上の手掛かり語(1以上の第2の形態素k)の各々のAkスコアを、以上の式(1)及び式(2)を繰り返し演算することで算出する。
次に、ドメインスコア算出部220は、手掛かり語スコア算出部210により算出された1以上のAkスコアの少なくとも一部に基づいて、基本語とi番のドメインとの関連度の正規化値を、i番のドメインについてのドメインスコア(以下、「i番のドメインスコア」と適宜称する)として算出する。
本実施形態では、ドメインスコア算出部220は、i番のドメインについての上位M個(Mは、i番のドメインに関連付けられた手掛かり語の総数以下の整数値)のAkスコアを正規化し、これらM個の正規化値に基づいて、i番のドメインスコアを算出する。なお、以下、かかるi番のドメインスコアを、後述する補正後のドメインスコアと明確に区別すべく、「Adi1/2」と記述する。正規化の手法は、特に限定されないが、本実施形態では、Akスコアのファイ係数を用いる手法が採用されている。即ち、本実施形態では、i番のドメインスコアAdi1/2は、次の式(3)により算出される。
Figure 0005154535
・・・(3)
式(3)において、jは、M個のAkスコアの各々に対して付された番号であって、本実施形態ではその順位にしたがって付された番号を示している。即ち、jは、1乃至Mのうちの何れかの整数値である。したがって、本実施形態では、Akijは、i番のドメインにおける第1位乃至第M位のAkスコアのうち、第j位のAkスコアを示している。また、φ(α)は、αのファイ係数を与える関数を示している。
このように、非特許文献1に開示された従来のi番のAdスコアは、上位5個のAkスコアの単純な総和であったのに対して、本実施形態におけるi番のドメインスコアAdi1/2は、上位M個(Mは5に特に限定されない整数値)のAkスコアのファイ係数の平均値である。即ち、Akスコアのファイ係数とは、0乃至1の範囲内の数値を取ることから、Akスコアの正規化値である。したがって、このようなM個のAkスコアの正規化値(ファイ係数)の平均値であるi番のドメインスコアAdi1/2もまた、0乃至1の範囲内の数値を取るため、ドメインスコアの正規化値である。
手掛かり語スコア算出部210及びドメインスコア算出部220は、i=1乃至N番のドメインのそれぞれについて、上述の式(1)乃至式(3)を用いた一連の処理を繰り返し実行することで、N個のドメインスコアAd11/2乃至AdN1/2の各々を算出する。即ち、1つの基本語につき、N個のドメインスコアAd11/2乃至AdN1/2がそれぞれ算出される。
このようにして、ドメインスコア算出部220により1つの基本語に対してN個のドメインスコアAd11/2乃至AdN1/2が算出されると、ドメインスコア補正部230は、i=1乃至N番のドメインの各々に対して、次のような処理を繰り返し実行する。即ち、ドメインスコア補正部230は、i番のドメインスコアAdi1/2と、N個のドメインスコアAd11/2乃至AdN1/2の全体との関係に基づいて、i番のドメインスコアAdi1/2を補正する。なお、以下、補正後のi番のドメインスコアを、「Adi2/2」と記述する。即ち、1つの基本語につき、N個の補正前のドメインスコアAd11/2乃至AdN1/2の各々がドメインスコア補正部230により補正され、その結果として、N個の補正後のドメインスコアAd12/2乃至AdN2/2の各々が得られる。
ここで、「i番のドメインスコアAdi1/2と、N個のドメインスコアAd11/2乃至AdN1/2の全体との関係に基づいて、i番のドメインスコアAdi1/2を補正する」ことは、N個のドメインの全体を考慮した上で、補正後のi番のドメインスコアAdi2/2を求めることを意味している。詳細については図6乃至図8を用いて後述するが、未知語ドメイン推定処理において、このような全ドメインを考慮した補正後のドメインスコアAd12/2乃至AdN2/2を用いることで、その推定の精度がより一段と高くなる。そこで、本実施形態では、「i番のドメインスコアAdi1/2と、N個のドメインスコアAd11/2乃至AdN1/2の全体との関係」の一例として、次の式(4)に示す関係が採用されている。即ち、本実施形態では、ドメインスコア補正部230は、次の式(4)にしたがって、i番のドメインスコアを、値Adi1/2から値Adi2/2に補正する。
Figure 0005154535
・・・(4)
式(4)において、yは、ドメイン/手掛かり語データベース120に設定されたN個のドメインのID、即ち、ドメイン番号を示しており、式(4)のシグマの演算を明確にすべく、iとは別の変数を採用したものである。即ち、yは、1乃至Nのうちの何れかの整数値である。また、zは、y番のドメインについてのM個のAkスコアの各々に対して付された番号であって、本実施形態ではその順位にしたがって付された番号である。即ち、本実施形態では、zは、1乃至Mのうちの何れかの整数値である。したがって、Akyzは、y番のドメインにおける第1位乃至第M位のAkスコアのうち、第z位のAkスコアを示している。
式(4)の右辺に示すように、補正前のドメインスコアAdi1/2に対して乗算される分数の項が、「i番のドメインスコアAdi1/2と、N個のドメインスコアAd11/2乃至AdN1/2の全体との関係」を示す補正項である。即ち、補正項の分子と分母のそれぞれに対して(1/M)を乗算すると、上述した式(3)より、分母は、1つの基本語についてのN個の補正前のドメインスコアAd11/2乃至AdN1/2の総和(以下、「補正前ドメインスコア総和」と称する)となる。一方、分子は、当該基本語についての補正前のi番のドメインスコアAdi1/2となる。このように、式(4)では、補正前ドメインスコア総和に対する、i番のドメインスコアAdi1/2の割合が、補正項として採用されている。
ドメインスコア補正部230は、i=1乃至N番のドメインのそれぞれについて、以上の式(4)を繰り返し演算することで、N個の補正後のドメインスコアAd12/2乃至AdN2/2の各々を算出する。即ち、1つの基本語につき、N個の補正後のドメインスコアAd12/2乃至AdN2/2がそれぞれ算出され、スコア付形態素辞書140の対応する行の「ドメインスコア」に格納される(図3参照)。
以上まとめると、スコア付形態素辞書生成装置110の手掛かり語スコア算出部210乃至ドメインスコア補正部230は、基本語データベース130に格納されている1以上の基本語の各々に対して、上述した一連の処理を繰り返し実行する。その結果、当該1以上の基本語毎に、N個の補正後のドメインスコアAd12/2乃至AdN2/2がそれぞれ算出され、スコア付形態素辞書140の対応する行の「ドメインスコア」の各々に格納される(図3参照)。このようにして、スコア付形態素辞書140が生成される。
なお、各基本語(形態素)の「形態素情報」については、スコア付形態素辞書生成装置110が生成した情報を格納してもよいし、ネットワーク30上のWebコンテンツ40又は図示せぬ他の装置内に存在する情報等を格納してもよい。
このようにして、スコア付形態素辞書生成装置110は、「ドメイン無し」や複数ドメインの判断を含むドメイン付与の判断のための閾値の調整に左右されることなく、かつ、未知語ドメイン推定処理等の精度を向上させるべく、各基本語(形態素)について全てのドメインとの関係を適切に表現し、管理することの出来るスコア付形態素辞書140を生成することができる。なお、かかる効果の詳細については、図6乃至図8を適宜参照して後述する。
次に、このような文章処理システム10のうち、スコア付形態素辞書生成装置110が実行する処理(以下、「スコア付形態素辞書生成処理」と称する)について説明する。
図4及び図5は、スコア付形態素辞書生成処理を例示するすフローチャートである。
ステップS1において、手掛かり語スコア算出部210は、登録対象の基本語を基本語データベース130から取得する。
ステップS2において、手掛かり語スコア算出部210は、ドメイン番号iを1に初期設定する(i=1)。なお、本実施形態では、ドメイン番号iとして、上述したように図2の「ドメインID」に格納されたIDが採用されている。
ステップS3において、手掛かり語スコア算出部210は、i番のドメインに関連付けられた手掛かり語を、ドメイン/手掛かり語データベース120から取得する。
ステップS4において、手掛かり語スコア算出部210は、ステップS3の処理で取得した手掛かり語について、ステップS1の処理で取得した基本語に対するAkスコアを、上述の式(1)及び式(2)にしたがって算出する。
ステップS5において、手掛かり語スコア算出部210は、i番のドメインに関連付けられた手掛かり語の全てを取得したか否かを判定する。
i番のドメインに関連付けられた手掛かり語のうち、Akスコアが算出されていない手掛かり語が未だ存在する場合、ステップS5においてNOであると判定されて、処理はステップS3に戻され、それ以降の処理が繰り返される。即ち、i番のドメインに関連付けられた1以上の手掛かり語の各々について、ステップS3乃至S5のループ処理が繰り返されて、Akスコアがそれぞれ算出される。
このようにしてi番のドメインに関連付けられた手掛かり語の全てが取得されて、各々のAkスコアが算出されると、ステップS5においてYESであると判定されて、処理はステップS6に進む。
ステップS6において、ドメインスコア算出部220は、上位M個のAkスコアの各々を、スコアAki1乃至AkiMとして設定する。
ステップS7において、ドメインスコア算出部220は、i番のドメインについての、ステップS1の処理で取得した基本語に対する補正前のドメインスコアAdi1/2を算出する。即ち、ドメインスコア算出部220は、ステップS6の処理で設定したスコアAki1乃至AkiMを、上述の式(3)の右辺に代入して演算することで、補正前のi番のドメインスコアAdi1/2を算出する。
ステップS8において、ドメインスコア算出部220は、ドメイン番号iを1だけインクリメントする(i=i+1)。
ステップS9において、ドメインスコア算出部220は、ドメイン番号iは、ドメイン/手掛かり語データベース120に設定されたドメインの総数Nを越えたか否か(i>Nであるか否か)を判定する。
ドメイン番号iがN以下の場合、ステップS9においてNOであると判定されて、処理はステップS3に戻され、それ以降の処理が繰り返される。即ち、ステップS3乃至S9のループ処理が繰り返されて、補正前のi=1乃至N番のドメインスコアAd11/2乃至AdN1/2がそれぞれ算出される。
このようにして、N個の補正前のドメインスコアAd11/2乃至AdN1/2が算出されると、その後のステップS8の処理でi=N+1に更新されるので、次のステップS9においてYESであると判定されて、処理は図5のステップS10に進む。
ステップS10において、ドメインスコア補正部230は、ドメイン番号iを1に初期設定する(i=1)。
ステップS11において、ドメインスコア補正部230は、i番のドメインについての、ステップS1の処理で取得した基本語に対する補正後のドメインスコアAdi2/2を算出する。即ち、ドメインスコア算出部220は、上述の式(4)にしたがって、補正後のi番のドメインスコアAdi2/2を算出する。
ステップS12において、ドメインスコア補正部230は、ドメイン番号iを1だけインクリメントする(i=i+1)。
ステップS13において、ドメインスコア補正部230は、ドメイン番号iは、ドメイン/手掛かり語データベース120に設定されたドメインの総数Nを越えたか否か(i>Nであるか否か)を判定する。
ドメイン番号iがN以下の場合、ステップS13においてNOであると判定されて、処理はステップS11に戻され、それ以降の処理が繰り返される。即ち、ステップS11乃至S13のループ処理が繰り返されて、補正後のi=1乃至N番のドメインスコアAd12/2乃至AdN2/2がそれぞれ算出される。
このようにして、N個の補正後のドメインスコアAd12/2乃至AdN2/2が算出されると、その後のステップS12の処理でi=N+1に更新されるので、次のステップS13においてYESであると判定されて、処理はステップS14に進む。
ステップS14において、ドメインスコア補正部230は、ステップS1の処理で登録対象として取得された基本語を、N個の補正後のドメインスコアAd12/2乃至AdN2/2と関連付けて、スコア付形態素辞書140に登録する。即ち、図3に示すように、登録対象の基本語(形態素)に付されたIDが、所定の行の「形態素ID」に登録され、N個の補正後のドメインスコアAd12/2乃至AdN2/2が、当該行の「ドメインスコア」に登録される。なお、当該行の「形態素情報」については、ステップS14の処理タイミングに登録されてもよいし、別のタイミングで登録されてもよい。
ステップS15において、ドメインスコア補正部230は、他の基本語をスコア付形態素辞書140に登録するか否かを判定する。
他の基本語をスコア付形態素辞書140に登録すると判定された場合、処理は図4のステップS1に戻され、それ以降の処理が繰り返される。即ち、ステップS1乃至S15のループ処理が繰り返されて、基本語データベース130に格納されている1以上の基本語の各々が、N個の補正後のドメインスコアAd12/2乃至AdN2/2と関連付けられて、スコア付形態素辞書140に順次登録されていく。
そして、基本語データベース130に格納されている基本語の全てが、N個の補正後のドメインスコアAd12/2乃至AdN2/2とそれぞれ関連付けられて、スコア付形態素辞書140に登録されると、ステップS15においてNOであると判定されて、スコア付形態素辞書生成処理は終了となる。これにより、スコア付形態素辞書140が生成されることになる。
次に、このようなスコア付形態素辞書生成処理により生成されたスコア付形態素辞書140の効果の一例として、図6乃至図8を参照して、スコア付形態素辞書140を用いた未知語ドメイン推定処理が実行される場合の効果について説明する。
なお、以下、説明の簡略上、ドメイン番号iの区別が不要な場合、補正前ドメインスコアをまとめて「Ad1/2」と記述し、補正後のドメインスコアをまとめて「Ad2/2」と記述する。
図6は、本発明に係る文章処理システムの一実施の形態であって、図1とは異なる形態の機能的構成を示す機能ブロック図である。
図6の文章処理システム10は、図1の機能的構成と同様に、スコア付形態素辞書生成装置110と、ドメイン/手掛かり語データベース120と、基本語データベース130と、スコア付形態素辞書140とを備える。さらに、図6の文章処理システム10は、未知語ドメイン推定装置150を備える。
未知語ドメイン推定装置150は、スコア付形態素辞書140を用いて未知語ドメイン推定処理を実行すべく、未知語受付部310と、対応基本語選択部320と、未知語ドメイン分類部330とを備えている。
本実施形態では、未知語受付部310は、ドメイン推定が必要な未知語を受け付ける。なお、先に「本実施形態では」と明記したように、未知語受付部310は、ドメイン推定が必要であれば、基本語を未知語として受け付けることも可能である。即ち、ここでいう「未知語」とは、基本語以外の形態素を指すのではなく、ドメイン/手掛かり語データベース120に設定されているN個のドメインの何れか又は「ドメイン無し」に分類される対象の形態素を指す。さらに、未知語受付部310は、ユーザの操作によりユーザ端末20に入力された形態素を、未知語として受け付けることも可能である。
対応基本語選択部320は、所定のコーパスの中から、未知語受付部310が受け付けた未知語と共起性を有する基本語(以下、「対応基本語」と称する)を1語以上選択する。本実施形態では、コーパスとしてはWebコンテンツ40が採用されているが、特にこれに限定されず任意のコーパスを採用できる。
具体的には本実施形態では、対応基本語選択部320は、未知語受付部310により受け付けられた未知語をクエリとして、ネットワーク30を介して、コーパスとなるWebコンテンツ40の検索を実施する。対応基本語選択部320は、コーパスとして検索された複数のWebコンテンツ40に含まれる文章の中から、基本語データベース130に基本語として登録されている形態素を、対応基本語として1以上選択して抽出する。なお、対応基本語の選択手法自体は、1以上の基本語を選択可能な手法であれば、特に限定されない。
未知語ドメイン分類部330は、1以上の対応基本語の各々について、N個の補正後のドメインスコアAd12/2乃至AdN2/2の組をそれぞれ取得し、これらに基づいて、未知語のドメインを、所定のドメイン(「ドメイン無し」も含む)に分類する。なお、未知語のドメイン分類手法自体は、N個の補正後のドメインスコアAd12/2乃至AdN2/2の少なくとも一部を用いる手法であれば特に限定されない。詳細については図8を用いて後述するが、本実施形態では、1つの未知語が1又は複数のドメイン(「ドメイン無し」含む)に分類される手法が採用されている。
ここで、このような未知語ドメイン推定装置150による未知語ドメイン推定処理と、非特許文献1に示す従来技術の未知語ドメイン推定処理との差異について説明する。
上述のごとく、非特許文献1に示す従来技術のドメイン辞書においては、基本語に対してドメイン自体が関連付けられていた。さらに、従来技術の未知語ドメイン推定処理では、基本語とドメインの関連度を直接数値化できているわけではないIDF値が用いられており、必ずしも良好な推定の精度が得られる訳ではなかった。
これに対して、スコア付形態素辞書140においては、基本語に対して、当該基本語とドメインの関連度を示すドメインスコアがN個のドメイン毎に関連付けられている。このため、未知語ドメイン推定装置150は、スコア付形態素辞書140を参照することで、IDF値の代わりにドメインスコアを用いた未知語ドメイン推定処理、即ち、基本語とドメインの関連度が考慮された未知語ドメイン推定処理を実行することが可能になる。その結果、未知語ドメイン推定装置150による未知語ドメイン推定処理の推定の精度は、IDF値を用いる従来技術の場合と比較して高くなる。かかる効果は、補正後のドメインスコアAd2/2のみならず、非特許文献1に開示されたAdスコアや補正前のドメインスコアAd1/2がスコア付形態素辞書140に登録されている場合であっても、奏することが可能である。
即ち、スコア付形態素辞書140に登録可能なドメインスコアの種類は、非特許文献1に開示されたAdスコア、補正前のドメインスコアAd1/2、及び、補正後のドメインスコアAd2/2の他、各種各様の種類が存在する。このような各種各様の種類のうち任意の種類のドメインスコアが登録されているスコア付形態素辞書140であれば、未知語ドメイン推定処理等の精度を向上させるべく、各基本語(形態素)について全てのドメインとの関係を適切に表現し、管理することの出来る辞書であるといえる。
しかしながら、『「ドメイン無し」や複数ドメインの判断を含むドメイン付与の判断のための閾値の調整に左右されることなく』という点については、非特許文献1に開示されたAdスコアや補正前のドメインスコアAd1/2がスコア付形態素辞書140に登録されている場合には達成することは困難である。即ち、この点について達成すべく、本実施形態では、補正後のドメインスコアAd2/2がスコア付形態素辞書140に登録されているのである。このことについて、図7及び図8を用いて、さらに詳しく説明する。
図7は、基本語、補正前のドメインスコアAd1/2、及び、補正後のドメインスコアAd2/2の具体例を示している。
説明の簡略上、基本語データベース130には、「さん」、「偉大」、「ブルー」、及び「たましい」という4つの形態素のみが基本語として登録されているものとする。なお、「さん」は、氏名等の後に付けられる敬称の形態素である。「偉大」は、野球チーム名を示す形態素であるとする。「ブルー」は、サッカーチーム名を示す形態素であるとする。「たましい」は、本の題名を示す形態素であるとする。
ドメイン/手掛かり語データベース120には、ドメイン「人名」のサブドメインとして、i=1番の「サッカー選手」、i=2番の「野球選手」、及び、i=3番の「作家」の3つのドメインのみが設定されているものとする。図7に図示はしないが、i=1番の「サッカー選手」については、現役のサッカー選手の登録名のリストが手掛かり語として関連付けられているとする。同様に、i=2番の「野球選手」については、現役の野球選手の登録名のリストが手掛かり語として関連付けられているとする。i=3番の「作家」については、現役の作家の氏名や筆名のリストが手掛かり語として関連付けられているとする。なお、図7は、図2や図3とは独立した例である点、即ち、i=1乃至3番のドメインが異なっている点に注意する。
このような4つの基本語、即ち、「さん」、「偉大」、「ブルー」、及び「たましい」の各々について、上述したスコア付形態素辞書生成処理が実行された結果、補正前のドメインスコアAd1/2、及び、補正後のドメインスコアAd2/2が図7に示すように算出されたとする。
ここで、基本語「さん」は敬称であるため、サッカー選手の登録名、野球選手の登録名、及び、作家の氏名や筆名といった「人名」の手掛かり語であれば、何れとも同程度の高確率でコーパス中に共起して登場してくることになる。このため、基本語「さん」に対する、補正前のドメインスコアAd11/2乃至Ad31/2は何れも高い値になる。図7の例では、説明の簡略上、基本語「さん」に対する、補正前のドメインスコアAd11/2乃至Ad31/2は何れも「1」になっている。
一方、基本語「偉大」は野球チーム名であるため、コーパス中に共起して登場してくる確率が一番高い手掛かり語は、野球選手の登録名になる。このため、基本語「偉大」に対する、補正前のドメインスコアAd11/2乃至Ad31/2のうち最高値は、i=2番の「野球選手」のドメインスコアAd21/2となる。図7の例では、i=2番の「野球選手」のドメインスコアAd21/2は「0.6」になっている。
同様に、基本語「ブルー」はサッカーチーム名であるため、コーパス中に共起して登場してくる確率が一番高い手掛かり語は、サッカー選手の登録名になる。このため、基本語「ブルー」に対する、補正前のドメインスコアAd11/2乃至Ad31/2のうち最高値は、i=1番の「サッカー選手」のドメインスコアAd11/2となる。図7の例では、i=1番の「サッカー選手」のドメインスコアAd11/2は「0.5」になっている。
また、基本語「たましい」は本の題名であるため、コーパス中に共起して登場してくる確率が一番高い手掛かり語は、作家の氏名や筆名になる。このため、基本語「たましい」に対する、補正前のドメインスコアAd11/2乃至Ad31/2のうち最高値は、i=3番の「作家」のドメインスコアAd31/2となる。図7の例では、i=3番の「作家」のドメインスコアAd31/2は「0.6」になっている。
本実施形態では、スコア付形態素辞書140の「ドメインスコア」には、補正後のドメインスコアAd2/2が登録される。ただし、補正前のドメインスコアAd1/2に対する補正後のドメインスコアAd2/2の優位性を明確に示すべく、先ずここでは、スコア付形態素辞書140の「ドメインスコア」には、補正前のドメインスコアAd1/2が登録されているとして、以下説明する。
図8は、未知語ドメイン推定装置150の処理の概要を説明する模式図である。
未知語受付部310は、未知語として「○×△」という形態素を受け付けたとする。なお、未知語「○×△」は、著名な作家の氏名であるとする。ただし、未知語ドメイン推定装置150は、未知語「○×△」が著名な作家の氏名であることは認識できず、それゆえ、次のようにして、未知語「○×△」のドメインを推定する。
対応基本語選択部320は、未知語「○×△」をクエリとして、ネットワーク30を介して、コーパスとなるWebコンテンツ40の検索を実施する。
図8には、コーパスとして、文章Aと文章Bとが検索された場合が図示されている。
はじめに、コーパスとして文章Aが検索された場合を考える。文章Aとは、図8に示すように、「偉大なる巨人「○×△」さんの晩年の作品「たましい」がこんなに読みやすく、ある意味明快にテーマを提示していることに、まず驚き、自分の力の無さを実感し、気分がブルーになった。」という文章である。
この場合、対応基本語選択部320は、対応基本語として、図8に示すように、「さん」、「偉大」、「ブルー」、及び、「たましい」を選択する。
未知語ドメイン分類部330は、これらの対応基本語の各々のドメインスコアに基づいて、未知語「○×△」のドメインを推定する。
この例では、未知語ドメイン分類部330は、i=1乃至3番のドメインのそれぞれについて、選択された1以上の対応基本語の各々のドメインスコアの総和(以下、「ドメインスコア総和」と称する)が閾値を超えるか否かを判定する。そして、未知語ドメイン分類部330は、閾値を超えた1以上のドメインを、未知語「○×△」のドメインであると推定する。なお、未知語ドメイン分類部330は、閾値を超えるドメインが1つも存在しない場合、未知語「○×△」を「ドメイン無し」に分類する。
具体的には、ここでは、スコア付形態素辞書140には、補正前のドメインスコアAd11/2乃至Ad31/2が登録されていると仮定している。
図7によると、i=1番の「サッカー選手」については、「さん」、「偉大」、「ブルー」、及び、「たましい」の各々の補正前のドメインスコアAd11/2は、「1.0」,「0.1」,「0.5」,「0.1」である。したがって、i=1番の「サッカー選手」についてのドメインスコア総和は、「1.7(=1.0+0.1+0.5+0.1)」になる。
同様に、図7によると、i=2番の「野球選手」については、「さん」、「偉大」、「ブルー」、及び、「たましい」の各々の補正前のドメインスコアAd21/2は、「1.0」,「0.6」,「0.1」,「0.1」である。したがって、i=2番の「野球選手」についてのドメインスコア総和は、「1.8(=1.0+0.6+0.1+0.1)」になる。
また、図7によると、i=3番の「作家」については、「さん」、「偉大」、「ブルー」、及び、「たましい」の各々の補正前のドメインスコアAd31/2は、「1.0」,「0.2」,「0.1」,「0.6」である。したがって、i=3番の「作家」についてのドメインスコア総和は、「1.9(=1.0+0.2+0.1+0.6)」になる。
このように、コーパスとして文章Aが検索された場合には、対応基本語として「さん」が含まれているので、ドメインスコア総和は高い値になる。この場合に、未知語「○×△」をi=3番の「作家」に分類するためには、例えば閾値は「1.85」等に設定されることになる。
次に、コーパスとして文章Bが検索された場合を考える。文章Bとは、図8に示すように、「偉大なる巨人「○×△」の晩年の作品「たましい」がこんなに読みやすく、ある意味明快にテーマを提示していることに、まず驚き、自分の力の無さを実感し、気分がブルーになった。」という文章である。
このように、文章Bは、文章Aとほぼ同一であるが、基本語「さん」だけが存在しない点が文章Aとは異なる。したがって、この場合、対応基本語選択部320は、対応基本語として、図8に示すように、「偉大」、「ブルー」、及び、「たましい」を選択する。即ち、「さん」は対応基本語としては選択されない。
この場合、図7によると、i=1番の「サッカー選手」については、「偉大」、「ブルー」、及び、「たましい」の各々の補正前のドメインスコアAd11/2は、「0.1」,「0.5」,「0.1」である。したがって、i=1番の「サッカー選手」についてのドメインスコア総和は、「0.7(=0.1+0.5+0.1)」になる。
同様に、図7によると、i=2番の「野球選手」については、「偉大」、「ブルー」、及び、「たましい」の各々の補正前のドメインスコアAd21/2は、「0.6」,「0.1」,「0.1」である。したがって、i=2番の「野球選手」についてのドメインスコア総和は、「0.8(=0.6+0.1+0.1)」になる。
また、図7によると、i=3番の「作家」については、「偉大」、「ブルー」、及び、「たましい」の各々の補正前のドメインスコアAd31/2は、「0.2」,「0.1」,「0.6」である。したがって、i=3番の「作家」についてのドメインスコア総和は、「0.9(=1.0+0.2+0.1+0.6)」になる。
このように、コーパスとして文章Bが検索された場合には、対応基本語として「さん」が含まれていないので、コーパスとして文章Aが検索された場合と比較して、ドメインスコア総和は低い値になる。したがって、コーパスとして文章Bが検索された場合に、閾値として、上述の「1.85」等が設定されると、即ち文章Aにとっては適切となる高い値が設定されると、i=1乃至3の何れのドメインスコア総和も閾値より遥かに低い値となってしまう。その結果、未知語「○×△」は「ドメイン無し」に分類されることになる。
一方、例えば閾値として「0.85」等が設定されると、コーパスとして文章Bが検索された場合には、未知語「○×△」はi=3番の「作家」に分類されるが、コーパスとして文章Aが検索された場合には、未知語「○×△」はi=1乃至3番の全ドメインに分類されることになる。
このように、本例では、ドメイン/手掛かり語データベース120に設定されているi=1乃至3のドメインは何れも、ドメイン「人名」に対するサブドメインとなっているため、人名と共起しやすい基本語「さん」が対応基本語として選択されると、未知語ドメイン推定処理にとって邪魔なノイズとなる。このため、ノイズを含む文章Aとノイズを含まない文章Bとの何れがコーパスとして検索された場合にも適切となる閾値を設定することは困難となる。その結果、未知語ドメイン推定処理の推定の精度が悪化してしまうことになる。
そこで、未知語ドメイン推定処理においてノイズとなる対応基本語の影響を低減させるべく、本実施形態では、スコア付形態素辞書140の「ドメインスコア」には、補正前のドメインスコアAd1/2ではなく、補正後のドメインスコアAd2/2が登録されているのである。
即ち、「さん」のように複数のドメインに分類され得る基本語(それゆえノイズとなり得る基本語)については、分類され得る複数のドメインの各々との関連度はある程度高くなるので、N個のドメインの各々のドメインスコアAd11/2乃至AdN1/2の何れもがある程度高い値になる。したがって、このような基本語については、式(4)の補正項の分母(補正前ドメインスコア総和)が大きくなるので、補正後のドメインスコアAd2/2は、補正前のドメインスコアAd1/2よりも遥かに小さい値になる。
例えば、基本語「さん」についての補正前のドメインスコアAd11/2乃至Ad31/2は、何れも「1」であった。これにより、式(4)の補正項は「1/3{=1/(1+1+1)}」となるため、図7に示すように、補正後のドメインスコアAd12/2乃至Ad32/2は何れも「0.33{=1*(1/3)}」となる。
このように、分類され得るドメインの数が多くなる基本語ほど、補正後のドメインスコアAd2/2は、補正前のドメインスコアAd1/2よりも小さくなる。
換言すると、特定の1つのドメインに分類され得る基本語については、式(4)の補正項が最大になる(1に近づく)ので、補正後のドメインスコアAd2/2は、複数のドメインに分類され得る基本語と比較して高い値になる。例えば、基本語「たましい」は、i=3の「作家」に分類される基本語であるので、補正後のドメインスコアAd32/2は「0.45」と、基本語「さん」のドメインスコアAd32/2である「0.33」よりも高い値になる。
より具体的には、コーパスとして文章Aが検索された場合には、図7によると、i=1番の「サッカー選手」については、「さん」、「偉大」、「ブルー」、及び、「たましい」の各々の補正後のドメインスコアAd12/2は、「0.33」,「0.011」,「0.35」,「0.0125」である。したがって、i=1番の「サッカー選手」についてのドメインスコア総和は、「0.7035(=0.33+0.011+0.35+0.0125)」になる。
同様に、図7によると、i=2番の「野球選手」については、「さん」、「偉大」、「ブルー」、及び、「たましい」の各々の補正後のドメインスコアAd22/2は、「0.33」,「0.4」,「0.014」,「0.0125」である。したがって、i=2番の「野球選手」についてのドメインスコア総和は、「0.7565(=0.33+0.4+0.014+0.0125)」になる。
また、図7によると、i=3番の「作家」については、「さん」、「偉大」、「ブルー」、及び、「たましい」の各々の補正後のドメインスコアAd32/2は、「0.33」,「0.044」,「0.014」,「0.45」である。したがって、i=3番の「作家」についてのドメインスコア総和は、「0.838(=0.33+0.044+0.014+0.45)」になる。
これに対して、コーパスとして文章Bが検索された場合には、図7によると、i=1番の「サッカー選手」については、「偉大」、「ブルー」、及び、「たましい」の各々の補正後のドメインスコアAd12/2は、「0.011」,「0.35」,「0.0125」である。したがって、i=1番の「サッカー選手」についてのドメインスコア総和は、「0.3735(=0.011+0.35+0.0125)」になる。
同様に、図7によると、i=2番の「野球選手」については、「偉大」、「ブルー」、及び、「たましい」の各々の補正後のドメインスコアAd22/2は、「0.4」,「0.014」,「0.0125」である。したがって、i=2番の「野球選手」についてのドメインスコア総和は、「0.4265(=0.4+0.014+0.0125)」になる。
また、図7によると、i=3番の「作家」については、「偉大」、「ブルー」、及び、「たましい」の各々の補正後のドメインスコアAd32/2は、「0.044」,「0.014」,「0.45」である。したがって、i=3番の「作家」についてのドメインスコア総和は、「0.508(=0.044+0.014+0.45)」になる。
このように、補正後のドメインスコアAd2/2では、ノイズとなる基本語「さん」の値が補正前と比較して低くなっている。したがって、補正前のドメインスコアAd1/2を用いた場合と比較して、補正後のドメインスコアAd2/2を用いた場合の方が、文章Aと文章Bとの各々のドメインスコア総和の差異が小さくなる。その結果、例えば閾値を「0.50」等に設定することで、文章Aと文章Bとの何れがコーパスとして検索されても、即ち、ノイズとなる基本語「さん」が対応基本語として選択されていようと否とにかかわらず、少なくとも未知語「○×△」をi=3番の「作家」に分類することが可能になる。
以上まとめると、ノイズとなる形態素(複数ドメインに共通して関連する形態素)については、補正後のドメインスコアAd2/2は、補正前のドメインスコアAd1/2と比較して遥かに低い値となる。一方、各ドメインに特有の形態素については、補正後のドメインスコアAd2/2は、補正前のドメインスコアAd1/2と比較してほぼ同程度か若干低い値となる。換言すると、補正後のドメインスコアAd2/2では、ノイズとなる形態素の値は抑制される一方、各ドメインに特有の形態素の値は強調されることになる。したがって、複数ドメインに分類可能な未知語ドメイン推定処理では、補正後のドメインスコアAd2/2を用いることで、ノイズの影響を低減でき、その結果、推定の精度を向上させることが可能になる。
以上説明したように、補正後のドメインスコアAd2/2が登録されたスコア付形態素辞書140は、「ドメイン無し」や複数ドメインの判断を含むドメイン付与の判断のための閾値の調整に左右されることなく、かつ、未知語ドメイン推定処理等の精度を向上させるべく、各基本語(形態素)について全てのドメインとの関係を適切に表現し、管理することの出来る辞書であるといえる。
なお、このような辞書であるというためには、式(4)に示す補正後のドメインスコアAd2/2がスコア付形態素辞書140に登録されていることは必須ではない。即ち、上述のごとく、補正前のドメインスコアAdi1/2とN個のドメインスコアAd11/2乃至AdN1/2全体との関係に基づいて、当該ドメインスコアAdi1/2が補正されたものがスコア付形態素辞書140に登録されていれば足りる。
以上、本発明の実施形態を用いて説明したが、本発明の技術的範囲は上記実施形態に記載の範囲には限定されない。上記実施形態に、多様な変更又は改良を加えることができる。そのような変更又は改良を加えた形態も本発明の技術的範囲に含まれ得ることが、特許請求の範囲の記載から明らかである。
なお、本明細書において、記録媒体に記録されるプログラムを記述するステップは、その順序に沿って時系列的に行われる処理はもちろん、必ずしも時系列的に処理されなくとも、並列的或いは個別に実行される処理をも含むものである。
また、本明細書において、システムとは、複数の装置や処理部により構成される装置全体を表すものである。
10 文章処理システム
110 スコア付形態素辞書生成装置
120 ドメイン/手掛かり語データベース
130 基本語データベース
140 スコア付形態素辞書
150 未知語ドメイン推定装置
210 手掛かり語スコア算出部
220 ドメイン算出部
230 ドメインスコア補正部
310 未知語受付部
320 対応基本語選択部
330 未知語ドメイン分類部

Claims (4)

  1. 所定の形態素に対して、所定の複数のドメインスコアが関連付けられて登録されるスコア付形態素辞書の生成装置であって、
    所定の形態素を基本語とし、所定のドメインに予め関連付けられている1以上の手掛かり語毎に、前記基本語との関連度を示す手掛かり語スコアをそれぞれ算出する処理を、所定の複数のドメイン毎に実行する手掛かり語スコア算出手段と、
    前記手掛かり語スコア算出手段により算出された1以上の前記手掛かり語スコアの少なくとも一部に基づいて、前記基本語と前記複数のドメインの各々との関連度を、前記複数のドメインスコアの各々として算出するドメインスコア算出手段と、
    前記複数のドメインを1つずつ処理対象とし、前記ドメインスコア算出手段により算出された前記処理対象のドメインスコアと前記複数のドメインスコア全体との関係に基づいて、前記処理対象の前記ドメインスコアを補正し、補正後の前記複数のドメインスコアを前記基本語と関連付けて前記スコア付形態素辞書に登録するドメインスコア補正手段と
    を備え
    前記処理対象のドメインスコアと前記複数のドメインスコア全体との関係は、前記複数のドメインスコアの総和に対する、前記処理対象のドメインスコアの割合により示される
    スコア付形態素辞書の生成装置。
  2. 前記手掛かり語スコアは、カイ二乗値に基づく指標値であり、
    前記ドメインスコア算出手段は、上位M個(Mは、ドメインに関連付けられている手掛かり語の総数以下の整数値)の前記手掛かり語スコアの各々のファイ係数の平均を、前記ドメインスコアとして算出する
    請求項1に記載のスコア付形態素辞書の生成装置。
  3. 手掛かり語スコア算出手段と、ドメインスコア算出手段と、ドメインスコア補正手段を具備するスコア付形態素辞書の生成装置が行う、所定の形態素に対して、所定の複数のドメインスコアが関連付けられて登録されるスコア付形態素辞書の生成方法であって、
    前記手掛かり語スコア算出手段が、所定の形態素を基本語とし、所定のドメインに予め関連付けられている1以上の手掛かり語毎に、前記基本語との関連度を示す手掛かり語スコアをそれぞれ算出する処理を、所定の複数のドメイン毎に実行する手掛かり語スコア算出ステップと、
    前記ドメインスコア算出手段が、前記手掛かり語スコア算出ステップの処理により算出された1以上の前記手掛かり語スコアの少なくとも一部に基づいて、前記基本語と前記複数のドメインの各々との関連度を、前記複数のドメインスコアの各々として算出するドメインスコア算出ステップと、
    前記ドメインスコア補正手段が、前記複数のドメインを1つずつ処理対象とし、前記ドメインスコア算出ステップの処理により算出された前記処理対象のドメインスコアと前記複数のドメインスコア全体との関係に基づいて、前記処理対象の前記ドメインスコアを補正し、補正後の前記複数のドメインスコアを前記基本語と関連付けて前記スコア付形態素辞書に登録するドメインスコア補正ステップと
    を含み、
    前記処理対象のドメインスコアと前記複数のドメインスコア全体との関係は、前記複数のドメインスコアの総和に対する、前記処理対象のドメインスコアの割合により示される
    スコア付形態素辞書の生成方法。
  4. 所定の形態素に対して、所定の複数のドメインスコアが関連付けられて登録されるスコア付形態素辞書の生成処理を制御するコンピュータに、
    所定の形態素を基本語とし、所定のドメインに予め関連付けられている1以上の手掛かり語毎に、前記基本語との関連度を示す手掛かり語スコアをそれぞれ算出する処理を、所定の複数のドメイン毎に実行する手掛かり語スコア算出ステップと、
    前記手掛かり語スコア算出ステップの処理により算出された1以上の前記手掛かり語スコアの少なくとも一部に基づいて、前記基本語と前記複数のドメインの各々との関連度を、前記複数のドメインスコアの各々として算出するドメインスコア算出ステップと、
    前記複数のドメインを1つずつ処理対象とし、前記ドメインスコア算出ステップの処理により算出された前記処理対象のドメインスコアと前記複数のドメインスコア全体との関係に基づいて、前記処理対象の前記ドメインスコアを補正し、補正後の前記複数のドメインスコアを前記基本語と関連付けて前記スコア付形態素辞書に登録するドメインスコア補正ステップと
    を含み、
    前記処理対象のドメインスコアと前記複数のドメインスコア全体との関係は、前記複数のドメインスコアの総和に対する、前記処理対象のドメインスコアの割合により示される
    制御処理を実行させるプログラム。
JP2009295300A 2009-12-25 2009-12-25 スコア付形態素辞書の生成装置、方法、及びプログラム Expired - Fee Related JP5154535B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009295300A JP5154535B2 (ja) 2009-12-25 2009-12-25 スコア付形態素辞書の生成装置、方法、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009295300A JP5154535B2 (ja) 2009-12-25 2009-12-25 スコア付形態素辞書の生成装置、方法、及びプログラム

Publications (2)

Publication Number Publication Date
JP2011134247A JP2011134247A (ja) 2011-07-07
JP5154535B2 true JP5154535B2 (ja) 2013-02-27

Family

ID=44346877

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009295300A Expired - Fee Related JP5154535B2 (ja) 2009-12-25 2009-12-25 スコア付形態素辞書の生成装置、方法、及びプログラム

Country Status (1)

Country Link
JP (1) JP5154535B2 (ja)

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4360181B2 (ja) * 2003-11-13 2009-11-11 日本電信電話株式会社 ドメイン別概念辞書構築装置及びプログラム
JP5008137B2 (ja) * 2007-11-06 2012-08-22 日本電信電話株式会社 単語ベクトル生成装置、単語ベクトル生成方法、プログラムおよびプログラムを記録した記録媒体

Also Published As

Publication number Publication date
JP2011134247A (ja) 2011-07-07

Similar Documents

Publication Publication Date Title
Oufaida et al. Minimum redundancy and maximum relevance for single and multi-document Arabic text summarization
US5270927A (en) Method for conversion of phonetic Chinese to character Chinese
JP4942727B2 (ja) テキスト要約装置、その方法およびプログラム
KR20050005523A (ko) 단어 상관 방법 및 장치
US20100217742A1 (en) Generating A Domain Corpus And A Dictionary For An Automated Ontology
CN111400486B (zh) 一种文本摘要自动生成系统及方法
JP2007004633A (ja) 言語モデル作成装置およびそれにより作成された言語モデルを使用する言語処理装置
JP2014078132A (ja) 機械翻訳装置、方法およびプログラム
EP2224360A1 (en) Generating a dictionary and determining a co-occurrence context for an automated ontology
Singh Bhatia et al. Automatic generation of multiple choice questions using wikipedia
CN106844356B (zh) 一种基于数据选择改善英中机器翻译质量的方法
CN112612875B (zh) 一种查询词自动扩展方法、装置、设备及存储介质
KR102402466B1 (ko) 키워드 클러스터링을 이용한 문서 요약 방법 및 장치
JP5527548B2 (ja) 情報分析装置、情報分析方法、及びプログラム
Dhanani et al. FAST-MT Participation for the JOKER CLEF-2022 Automatic Pun and Humour Translation Tasks
JP5154535B2 (ja) スコア付形態素辞書の生成装置、方法、及びプログラム
Molino et al. Distributed representations for semantic matching in non-factoid question answering.
Ploch et al. GerNED: A German Corpus for Named Entity Disambiguation.
JP5085584B2 (ja) 記事特徴語抽出装置、記事特徴語抽出方法及びプログラム
JP5523929B2 (ja) テキスト要約装置、テキスト要約方法及びテキスト要約プログラム
JP2009116593A (ja) 単語ベクトル生成装置、単語ベクトル生成方法、プログラムおよびプログラムを記録した記録媒体
JP4972271B2 (ja) 検索結果提示装置
Jha Document clustering using k-medoids
JP2008282328A (ja) テキスト分類装置、テキスト分類方法及びテキスト分類プログラム並びにそのプログラムを記録した記録媒体
JP5277090B2 (ja) リンク作成支援装置、リンク作成支援方法およびプログラム

Legal Events

Date Code Title Description
RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20120312

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120823

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120904

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20121001

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20121024

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20121113

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20121205

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20151214

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 5154535

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees
S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R371 Transfer withdrawn

Free format text: JAPANESE INTERMEDIATE CODE: R371

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350