JP2007034410A

JP2007034410A - 辞書情報作成装置

Info

Publication number: JP2007034410A
Application number: JP2005212994A
Authority: JP
Inventors: Tokuji Ikeno; 篤司池野
Original assignee: Oki Electric Industry Co Ltd
Current assignee: Oki Electric Industry Co Ltd
Priority date: 2005-07-22
Filing date: 2005-07-22
Publication date: 2007-02-08

Abstract

【課題】複合語の意味属性情報を推定する際の精度向上。
【解決手段】第１の実施形態の辞書情報作成装置は、複合語分割部１と、個別属性付与部２と、全体属性推定部３と、推定ルール４とを有することを特徴とする辞書情報作成装置。
複合語分割部１は、辞書エントリ候補である複合語の入力を受け構成要素に分割し、各構成要素に文法的属性を付与し、複合語は個別属性付与部２に送る。個別属性付与部２は、複合語分割部１から分割済みの複合語の構成要素を受け取り、それらに対して意味属性を付与する。
次に、意味属性を付与された複合語は全体属性推定部３に送られ、全体属性推定部３は、個別属性付与部２から、構成要素に意味属性が付与された複合語を受け取り、構成要素に付与された情報と、推定ルール４中に記載されているルールを判定基準として、複合語全体の意味属性を推定して出力することを特徴とする。
【選択図】図１

Description

本発明は、複合語の意味属性を推定する辞書情報作成装置に関するものである。

テキストを解析するときに問題となるのが、既存の辞書にない新しい用語の出現である。特に専門用語は技術の発展や社会の変化に伴って多くの語が生み出される。こういった専門用語の多くは複合語である。

新しい用語の獲得は、統計的に獲得することが可能である。これらの用語を辞書に追加することで、より正確にテキストを解析できる（例えば、非特許文献１参照。）。
ところが、新しい用語を辞書に追加するためには、文法情報や意味情報を付与して辞書に登録可能な形式に整形する必要がある。特に意味情報はテキストから情報を抽出する際に有用であるため辞書に記載することが望まれる情報である。
新しい用語が複合語であって、その意味情報を付与する場合の簡単な方法として、複合語の構成要素の意味属性を、既存手法、または専門用語辞書の見出しとの一致によって付与し、それら構成要素の意味属性により複合語全体の意味属性を推定する装置が考えられる（例えば、非特許文献２参照。）。

また、複合語の構成要素の中から中心語となるものを認定し、その要素の辞書情報を全体に波及する装置が提案されている（例えば、特許文献１参照。）。
特公平６-７５２６４号公報中川裕志、森辰則、湯本紘彰「出現頻度と連接頻度に基づく専門用語抽出」自然言語処理 Vol.10, No.1, pp.27-45(2003,1) 関根聡「テキストからの情報抽出」情報処理 Vol.40, No.4, (1999,4)

しかしながら、上記の単純な構成の装置では、推定に必要な情報が十分に得られないため、複合語の意味属性を誤って付与してしまうことが多いという問題がある。

従来の装置は、中心語が認定できなれば、複合語全体の辞書情報を求めることができない。また、特に意味属性に関しては、中心語は特別な意味属性を持っていないが、それ以外の語が特別な意味属性を持っていて、その結果、複合語全体は中心語以外の語の意味属性を持つほうが正しい場合もあるが、この問題を解決できない。
この課題を解決するために、未知の複合語（集合）が与えられた場合に、その複合語を構成する各要素の意味属性だけでなく、各要素の統計的情報・文法的属性・要素間関係情報とを利用することにより、複合語全体の意味属性を推定することを特徴とする辞書情報作成装置を提供することを目的とする。

また、従来の構成の装置でも、各構成要素の意味属性が実質的に与えられていない場合、すなわち意味属性がないか一般である構成要素だけである場合には複合語全体の意味属性を推定できないという問題がある。
以上の課題を解決するために、未知の複合語を構成する各要素の意味属性が実質的に与えられていない場合にも、まず構成要素の意味属性を推定することにより、複合語全体の意味属性が推定、あるいは推定精度を向上させるようにすることを特徴とする辞書情報作成装置を提供することを目的とする。

本発明の辞書情報作成装置は、複合語分割部と、個別属性付与部と、全体属性推定部と、推定ルールとを有することを特徴とする。
複合語分割部は、辞書エントリ候補である複合語の入力を受け付けて構成要素に分割し、各構成要素に文法的属性を付与し出力することを特徴とする。

また、上記構成の他に、統計情報読み出し部と語彙統計情報データベースとを付加した構成、要素間関係情報読み出し部と要素間関係データベースとを付加した構成、情報補完部と補完用要素語データと補完用属性推定部と複合語辞書を付加した構成がある。

本発明によれば、複合語の意味属性情報を推定する際の精度向上が実現できる。

（第1の実施形態）
図１に本装置の構成を示す。図示のように本辞書情報作成装置は、複合語分割部１と、個別属性付与部２と、全体属性推定部３と、推定ルール４とからなる。
複合語分割部１は、辞書エントリ候補である複合語の入力を受け付けて構成要素に分割し、各構成要素に文法的属性を付与する。次に、分割されて文法的属性を付与された複合語は個別属性付与部２に送られる。
個別属性付与部２は、複合語分割部１から分割済みの複合語の構成要素（語）を受け取り、それらに対して意味属性を付与する。次に、複合語は全体属性推定部３に送られる。
全体属性推定部３は、個別属性付与部２から、構成要素に意味属性が付与された複合語を受け取り、構成要素に付与された情報（文法属性および意味属性）と、推定ルール４中に記載されているルールを判定基準として、複合語全体の意味属性を推定して出力する。
推定ルール４は、複合語の構成要素の意味属性・文法的属性を用いて複合語全体の意味属性を推定するためのルールを集めたものである。

複合語分割部１には、既存の形態素解析装置をそのまま用いればよい。未知の複合語を一般的な形態素解析装置に入力すると、当該の複合語を形態素単位で分割し、形態素には品詞を付与して出力することができる。
個別属性付与部２は、従来からある固有表現抽出の手法や、既存の辞書と見出しが一致したものの属性を付与することにより実現することができる。（固有表現に含まれる人名・地名などの属性は、意味属性とは厳密には異なるが、広義には意味属性の一種とみなしても差し支えない。）

ここでは、まず、全体属性推定部３の動作を、図２を参照しながら説明する。
最初に、推定ルール４をメモリ内に読み込む（ステップ２０１）。
次に、個別属性付与部２から送られてきた全体属性推定対象の複合語に対して、上記推定ルールのうち未チェックのものを先頭から適用を試みる（ステップ２０２）。

推定ルール４は、例えば図３（１）〜（２）に示すようなデータの集合であるとする。このとき、推定対象となる複合語がc、複合語の構成要素がt₁〜t_nであるとすると、それぞれのルールは以下に示す内容を表している。
（１）意味属性が「化学用語」である要素が一つ以上存在し、かつ、先頭と末尾を除く構成要素(t_i=2〜n-1)には意味属性に「人名」を持つものが一つも存在せず、かつ、末尾の要素の文法的属性（品詞）が「名詞−サ変名詞」ではない、という条件を満たすとき、複合語全体の意味属性に「化学用語」を代入する。
（２）意味属性が「化学用語」である要素が一つ以上存在し、かつ、先頭と末尾を除く構成要素(t_i=2〜n-1)には意味属性に「人名」を持つものが一つも存在しない、という条件を満たすとき、複合語全体の意味属性に「化学用語」を代入する。

上記（１）と（２）のルールでは、（１）のルールの条件の方が厳しい。実際に格納されているルールは厳しい条件のルールが先に適用されるように順序づけられているものとする。そのため上記（１）と（２）の例の場合には（１）の方が先に適用されるように格納されることになる。

ステップ２０２で、条件が満たされてルールが適用可能であった場合、当該のルールに従って複合語全体の意味属性に指定された意味属性情報を付与し（ステップ２０４）、処理を終了する。
ステップ２０２で、条件が満たされずルールが適用できない場合は、当該のルールにチェック済みマークを付け（ステップ２０３）、ステップ２０２に戻る。

次に、具体的な入力を例にとって装置全体の処理の流れを説明する。
「アルカリ土類酸化物」という複合語が入力に与えられたとき、まず複合語分割部１において、当該の複合語は「アルカリ」「土」「類」「酸化」「物」の５つの構成要素に分割される。このとき同時に、各構成要素に文法的属性（品詞の大分類と詳細分類）が付与される（図４）。ここで、「名詞−一般」は一般的な名詞であることを、「名詞−サ変名詞」は語に「する」を付加して動詞化することが可能な名詞であることを、「名詞−接尾−一般」は一般的な接尾辞であること（ただし扱いは名詞）を、それぞれ意味する。

その後、個別属性付与部２において、各構成要素に意味属性が付与される（図５）。ここで、意味属性が「一般」である、とは、特定の意味属性を付与することができない一般的な意味を持った語であることを意味する。また、意味属性が「（なし）」とは、一般的な名詞ではないため本来意味属性を持たない語に対して付与される情報であることを意味する。

次に、全体属性推定部３において、図３に示したルールを読み込んで、未チェックの先頭ルール図３（１）の適用を試みる。このとき、当該の複合語は、図４、図５の情報を保持している。
ここで、
・「化学用語」という意味属性を持つ要素が１つ以上ある（「アルカリ」「酸化」）。
・先頭と末尾以外の構成要素である「土」「類」「酸化」の意味属性はそれぞれ「一般」「（なし）」「化学用語」なので、いずれも「人名」ではない。
・末尾要素である「物」の文法的属性（品詞）は「名詞−接尾−一般」であるので、「名詞−サ変名詞」ではない。
このため、（１）のルールの条件を満たしている。よって、当該のルールを適用することができ、全体意味属性は「化学用語」であると推定される。出力結果は「化学用語」となる。

以上、,本実施形態によれば、複合語の意味属性情報を推定する際に精度が向上するという効果がある。

（第2の実施形態）
図８に本実施形態の装置の構成を示す。図示のように本装置は、第１の実施形態の構成に、統計情報読み出し部５と、語彙統計情報データベース６とを付加した構成となっている。

構成の変更に伴い、個別属性付与部２は、第１の実施形態での機能に加えて、処理の対象となる複合語の構成要素の見出しを統計情報読み出し部５に送付し、統計情報読み出し部５から当該構成要素の統計情報を受け取る機能を持つ。その結果、個別属性付与部２は、構成要素の意味属性と統計情報を付与した状態の複合語を全体属性推定部３に送ることになる。
統計情報読み出し部５は、個別属性付与部２から複合語の各構成要素の見出しを受け取り、当該構成要素に関する統計情報を、語彙統計情報データベース６から読み出し、個別属性付与部２に送るものである。

語彙統計情報データベース６は、単語の出現頻度などの各種の統計値を読み出し可能な状態で蓄えてある。図１０に示したようなデータを保持している。ここで、総出現回数とは、その見出しを持つ語が、統計情報の基となった集合内で何回出現したかということを意味し、IDF とは、Inverse Document Frequency を意味する。IDFは、特定の語が全文書集合中のどれぐらいの文書に出現するかを表す尺度であり、特定の少数の文書に出現する語はIDFが高くなる。また、語彙統計情報データベース６には、その他の様々な統計情報を持たせておくことが可能である。
なお、これらの統計情報は、既存辞書・推定対象となる未知の複合語集合・複合語を獲得するために用いた原文書集合、などから事前に収集されているものとする。

また、本実施形態における推定ルールには、図３に挙げた例のようなルールに加えて、統計的情報を利用した推定ルールが存在するものとする。図６に例を示す。この例は以下に示す内容を表している。
・意味属性が「化学用語」である要素が一つ以上存在し、かつ、その要素のIDF値が３.５よりも大きく、かつ、先頭と末尾を除く構成要素(t_i=2〜n-1)には意味属性に「人名」を持つものが一つも存在しない、という条件を満たすとき、複合語全体の意味属性に「化学用語」を代入する。
他の構成部分は第１の実施形態と基本的な動作は同じである。具体的な例で全体の動作を説明する。

第１の実施形態の動作説明と同じく、「アルカリ土類酸化物」という複合語が入力に与えられたとき、複合語分割部１で「アルカリ」「土」「類」「酸化」「物」に分割されて、それぞれに文法的属性が付与され、さらに、個別属性付与部２で、各々の意味属性が付与されるところまでの動作は同じである。

その後に、個別属性付与部２が、まず、「アルカリ」というの見出しを統計情報読み出し部５に送る。すると、統計情報読み出し部５は、語彙統計情報データベース６から、「アルカリ」に関する統計情報として、総出現回数は８、IDFは２.５、などといったデータを読み出してくるので、その情報を個別属性付与部２に送る。個別属性付与部２はそれらの情報を「アルカリ」の統計情報として保持する。
同様に「土」「類」「酸化」「物」の情報も語彙統計情報データベースから読み出されて付与される。

全体属性推定部３に送られてきた当該の複合語は、図４、図５、図１０の情報を持つことになる。ここで、推定ルール４中の各ルールに基づいて全体属性の推定を行うが、推定ルールの格納順により図３のルールよりも先に図６のルールが適用される場合を考える。
「化学用語」という意味属性を持つ要素は「アルカリ」「酸化」の２つであるが、「アルカリ」のIDF値は２.８であるので、条件を満たさない。しかし、「酸化」のIDF値は３.９なので「酸化」の方が条件を満たしている。また、先頭と末尾以外の構成要素である「土」「類」「酸化」の意味属性はそれぞれ「一般」「（なし）」「化学用語」なので、いずれも「人名」ではない。

以上のように、図６のようなルールを適用することで、全体意味属性は「化学用語」と推定できるという効果がある。

（第3の実施形態）
図９に本実施形態の装置の構成を示す。図示のように本装置は、第１の実施形態の構成に、要素間関係情報読み出し部７と、要素間関係データベース８とを付加した構成となっている。

構成の変更に伴い、個別属性付与部２は、第１の実施形態での機能に加えて、処理の対象となる複合語の構成要素の見出しを組み合わせたものを要素間関係情報読み出し部７に送付し、要素間関係情報読み出し部７から当該構成要素の組合せに関する要素間関係情報を受け取る機能を持つ。その結果、個別属性付与部２は、構成要素の意味属性と、構成要素間の関係情報とを保持した状態の複合語を全体属性推定部３に送ることになる。
要素間関係情報読み出し部７は、個別属性付与部２から複合語の各構成要素の見出しを組み合わせたものを受け取り、当該構成要素組合せに関する要素間関係情報を、要素間関係データベース８から読み出し、個別属性付与部２に送るものである。

要素間関係データベース８は、要素間の関係に関する情報を読み出し可能な状態で蓄えてあるものである。図１１に示したようなデータを保持している。ここで、「作用−対象」という関係は、「酸化」という作用の対象が「物」であることを意味し、「目的語−述部」という関係は、『「工学」を「実習する」』のように「実習」を動詞（述語）のように見ると「工学」が目的語となっていることを意味する。要素間に特筆すべき関係がない見出しの組合せについては、データベースにデータが存在しない。このとき、要素間関係データベース８からは、データが存在しない旨の情報が伝達される。
なお、これらの要素間関係の情報は、既存辞書、推定対象となる未知の複合語集合、複合語を獲得するために用いた原文書集合等から事前に収集されているものとする。

また、図７に本実施形態における推定ルール例を示す。図３に挙げた例のようなルールに加えて、要素間関係情報を利用した推定ルールが存在するものとする。この例は以下に示す内容を表している。
・意味属性が「化学用語」である要素が一つ以上存在し、かつ、先頭と末尾を除く構成要素(t_i=2〜n-1)には意味属性に「人名」を持つものが一つも存在せず、かつ、末尾要素の一つ前の要素(t_n-1)と、末尾要素(t_n)との関係が「目的語−述部」ではない、という条件を満たすとき、複合語全体の意味属性に「化学用語」を代入する。
他の構成部分は第１の実施形態と基本的な動作は同じである。具体的な例で全体の動作を説明する。

その後に、個別属性付与部２が、まず、「アルカリ」と「土」という見出しの組合せを要素間関係情報読み出し部７に送る。すると、要素間関係情報読み出し部７は、要素間関係データベース８から、「アルカリ」と「土」の組合せに関する要素間関係情報を読み出そうと試みるが、要素間関係データベース８には当該のデータがないという情報を受け取る。そこで、次は「土」と「類」、さらに「類」と「酸化」について試みるが、同じようにデータがないという情報を受け取る。
最後に「酸化」と「物」を送ると、この要素間関係情報は要素間関係データベース８に存在し、「作用−対象」という要素間関係情報が読み出され、個別属性付与部２に送られる。個別属性付与部２はこの情報を「酸化」と「物」に関連する情報として保持する。

全体属性推定部３に送られてきた当該の複合語は、図４、図５、図１１に示すような、文法的属性、意味属性、要素間関係の情報を持つことになる。ここで、推定ルール４中の各ルールに基づいて全体属性の推定を行うが、推定ルールの格納順により図３のルールよりも先に図７のルールが適用される場合を考える。
ここで、
・「化学用語」という意味属性を持つ要素が１つ以上ある（「アルカリ」「酸化」）。
・先頭と末尾以外の構成要素である「土」「類」「酸化」の意味属性はそれぞれ「一般」「（なし）」「化学用語」なので、いずれも「人名」ではない。
・末尾要素の一つ前の要素である「酸化」と、末尾要素である「物」と、の要素間関係情報は「作用−対象」であるので、「名詞−サ変名詞」ではない。
このため、図７のルールの条件を満たしている。よって、当該のルールを適用することができ、全体意味属性は「化学用語」であると推定される。出力結果は「化学用語」となる。

ここでの説明では、連続する２つの構成要素に関する関係を利用するという記述になっているが、任意の位置にある任意の数の構成要素に関する関係を利用する形態であってもよい。
また、要素間関係データベース８は、ある構成要素の組合せに対して複数の要素間関係を値として持つことも可能である。さらに、値である要素間関係ごと信頼度スコアを持たせるようにしてもよい。このような場合には、個別属性付与部２において、複数の要素間関係情報のうちどれを選択するかを決定するための装置が新たに組み込まれることになる。

以上のように、第３の実施形態によれば、第１、第２の実施形態とは異なる情報を用いて、複合語の意味属性情報推定の精度を向上させることができるという効果がある。

（第4の実施形態）
図１２に本実施形態の装置の構成を示す。図示のように本装置は、第１の実施形態の構成に、情報補完部１０と、補完用要素語データ１１と、補完用属性推定部１２と、複合語辞書１３を付加した構成となっている。

構成の変更に伴い、個別属性付与部２は、第１の実施形態での機能に加えて、意味属性が一般であるか「なし」である構成要素の見出しを情報補完部１０に送付し、情報補完部１０から当該構成要素の意味属性情報を受け取る機能を持つ。
情報補完部１０は、個別属性付与部２から複合語の構成要素の見出しを受け取り、当該構成要素に関する推定意味属性を、補完用要素語データベース１１から読み出し、個別属性付与部２に送るものである。
補完用要素語データベース１１は、単語とその意味属性の情報を対にして、読み出し可能な状態で蓄えてある。図１７に補完用要素語データベース例を示す。

補完用属性推定部１２は、複合語辞書１３のデータを受け取り、複合語の各構成要素に関連する統計情報を計算し、統計情報に基づいて構成要素語の意味属性を推定するものである。構成要素語と推定された意味属性の情報は、対にして補完用要素語データベース１１に蓄えられる。補完用属性推定部１２は、内部に意味属性別頻度テーブル１４、および統計情報テーブル１５を保持しているものとする。

意味属性別頻度テーブル１４は、複合語辞書１３のデータから統計情報を計算するための基礎データとして頻度をカウントして一時的に保持するためのテーブルである。図１５に意味属性別頻度テーブル例を示す。意味属性別頻度テーブル１４のデータを用いて統計情報を計算した結果が統計情報テーブル１５に蓄えられる。図１６に意味属性別頻度テーブル例を示す。統計情報テーブル１５のデータを用いて構成要素語の意味属性を推定する。

複合語辞書１３は、複合語の見出しと、その構成要素と、意味属性とを組にしたデータを保持している辞書である。図１３に複合語辞書のデータ例を示す。例えば、第１の実施形態の装置における、入力される複合語と、それが分割された構成要素と、出力の意味属性情報とを蓄えたものを複合語辞書１３として利用することもできる。他の構成部分は第１の実施形態と基本的な動作は同じである。

ここでは補完用属性推定部１２の動作について図１４を用いて詳細に説明する。
ステップ１４０１で、複合語辞書１３の全データの処理が済んだかどうかをチェックする。
個々のデータの処理が全て済んでいる場合はステップ１４０７で統計情報を計算し、さらにステップ１４０８で意味属性を推移して終了する。ステップ１４０７、およびステップ１４０８の詳細内容については後述する。
ステップ１４０１で未処理のデータが残っている場合は、構成要素を１語読み込んで、意味属性別頻度テーブル１４に当該の語を見出しとするデータがあるかどうかをチェックする（ステップ１４０２）。

当該の語を見出しとするデータが既にある場合には、ステップ１４０４で、意味属性別頻度テーブル１４に当該の意味属性を項目とする列があるかどうかをチェックする。
当該の語を見出しとするデータがない場合には、テーブルに当該の見出しを作成し、すべての欄に初期値として０を入れておき（ステップ１４０３）、ステップ１４０４で、意味属性を項目とする列の有無をチェックする。

ステップ１４０４で、当該意味属性の列が既にある場合には、ステップ１４０６で、当該の見出し語・意味属性の欄を１つカウントアップしてステップ１４０１に戻る。
ステップ１４０４で、当該意味属性の列がまだない場合には、テーブルに当該の意味属性の列を作成し、すべての欄に初期値として０を入れておく（ステップ１４０５）。その後、ステップ１４０６で頻度をカウントアップしてステップ１４０１に戻る。なお、頻度をカウントアップするごとに、テーブルの関係する合計の欄の値も再計算される。

ステップ１４０７では、意味属性別頻度テーブル１４のデータを参照し、統計情報を計算し、統計情報テーブル１５に保持する。計算される統計情報には様々なものが考えられる。例えば、統計情報は統計情報テーブルとして図１６に示したような分野別の出現確率などがある。以降、この例に基づいて説明するが、ここでの統計情報は、意味属性別頻度テーブル１４の情報を利用して計算できるものであればよい。また、統計情報も１種類に限らず、複数種の統計情報を計算して、複数のテーブルに保持する構成であってもよい。

ステップ１４０８では、意味属性別頻度テーブル１４、および統計情報テーブル１５に保持されたデータを用いて個々の構成要素語の意味属性を推定する。推定の基準は、例えば、
・出現頻度が最も高い意味属性を、その要素語の意味属性とする。
・出現確率の最も高い意味属性を、その要素語の意味属性とする。
・全体での出現確率と意味属性別出現確率との間で差、または比を取り、最も値の大きい意味属性を、その要素語の意味属性とする。
などを用いる。また、これらの数値に適当な重みをつけて総合した評価関数を設定してもよい。

以下に、補完用属性推定部の動作を具体的な例を用いて説明する。
複合語辞書１３のデータの一部が図１３であったとする。まずステップ１４０１で、まだ処理をすべきデータがあるので、ステップ１４０２に進む。ステップ１４０２で、まず「磁場勾配」の最初の構成要素「磁場」を読み込んで頻度テーブルをチェックするが、まだ何もデータが入っていないので、ステップ１４０３で「磁場」の見出しのデータを作成する。この時点ではテーブルの列には何も用意されていないので、初期値を入れることはしない。

次にステップ１４０４だが、「磁場勾配」の意味属性が「物理用語」であるので、その構成要素である「磁場」にもテーブルの意味属性別頻度には「物理用語」のところにカウントしたい。ところが、「物理用語」の列はまだテーブルに用意されていないので、ステップ１４０５で「物理用語」の列を作成し、「物理用語」の列すべて（ここでは合計の欄を除くと「磁場」の行しかない）に初期値０を代入しておく。
その後、ステップ１４０６で「磁場」と「物理用語」の交差する欄の値に１を足す。同時に合計欄2箇所にも計算により１が入る。

またステップ１４０１でチェックするが、やはりまだ全データ処理済みではないので、今度はステップ１４０２で「勾配」を読み込んで、見出しはないので、ステップ１４０３で見出しを作成する。「勾配」と「物理用語」の交差する欄には初期値として０が入る。「物理用語」の列は既に存在するのでステップ１４０４から直接ステップ１４０６に進み、「勾配」と「物理用語」の交差する欄の値に１を足す。同時に、「勾配」の行の合計欄には１が、「物理用語」の列の合計欄には２が、それぞれ計算により値が入る。

またステップ１４０１に戻り、ステップ１４０２に進み、今度は「磁場安定度」の「磁場」を読み込むと、今度は見出しがあるので、ステップ１４０４に進む。意味属性の列もあるので１４０６に進み、「磁場」と「物理用語」の交差する欄の値に１を足すので、値は２になる。「磁場」の行、「物理用語」の例の合計欄の値は、それぞれ２と３になる。

同様の方法で、複合語辞書１３のデータ（図１３のデータ以外にも多くのデータがあったとする）を全て処理し終えたとする。そのときは、ステップ１４０１からステップ１４０７に進む。ここで、意味属性別頻度テーブル１４は図１５のようになっているとする。例えば、意味属性別出現確率のテーブルをもって統計情報とすると、統計情報は図１６のような形で計算されることになる。ここで、各欄の値は、ある意味属性についての頻度の総和で、各見出しの頻度を割ったものである。

最後に、ステップ１４０８で、まず「磁場」の意味属性を推定するとする。ここで、仮に全体と意味属性別の出現確率比を判断基準にすると、
・一般属性での出現確率／全体出現確率＝(5/500)/(25/1500)=0.6
・物理用語属性での出現確率／全体出現確率＝(20/200)/(25/1500)=6
となって、物理属性としての出現確率の方が値が高いので、「磁場」の意味属性は「物理用語」であると推定する。
他の語も同様であるが、「天井」については、
・一般属性での出現確率／全体出現確率＝(13/500)/(20/1500)=1.95
・建築用語属性での出現確率／全体出現確率＝(7/50)/(20/1500)=10.5
となるので、「天井」の意味属性は建築用語であると推定する。このとき、出現頻度だけを判断基準に採用すると、一般属性のときの方が頻度は大きいので、推定結果が「一般属性」になってしまう。このように、判断するための指標をどう選んで組み合わせるかによって推定の結果は変化する。

以下に、（メインルーチンである）複合語の意味属性を推定する際の動作について具体的な例を用いて説明する。

「磁場配向」という複合語が入力に与えられたとき、まず複合語分割部１において、当該の複合語は「磁場」と「配向」の２つの構成要素に分割され、各構成要素に文法的属性が付与される（図１８）。
その後、個別属性付与部２において、各構成要素に意味属性が付与される（図１９）。次に、個別属性付与部２は、情報補完部１０に対して意味属性が「名詞−一般」である「磁場」と「配向」を見出しとして送る。情報補完部１０は、補完用要素語データベース１１の要素語見出しをチェックする。今、「磁場」に対しては「物理用語」という意味属性が収められていて、「配向」に対する意味属性は収められていないものとすると、情報補完部１０は「磁場」に対して「物理用語」という意味属性を返し、「配向」に対してはデータがないことを知らせる出力を返す。

その結果、個別属性付与部２での処理終了時点での各構成要素の意味属性は図２０に示される状態に変更されることになる。

図２１に示したルール（図３のルールの「化学用語」を「物理用語」に変更したもの）が用意されていたとすると、その後、全体属性推定部３において、当該ルールを読み込み、未チェックの先頭ルール図２１（１）の適用を試みる。このとき、「磁場配向」は、図１８、図２０の情報を保持している。

ここで、
・「物理用語」という意味属性を持つ要素が１つ以上ある（「磁場」）。
・「磁場配向」は２語で構成されているので、先頭と末尾以外の構成要素は存在しないため、先頭と
・末尾以外の構成要素の意味属性は「人名」ではありえない。
末尾要素である「配向」の文法的属性（品詞）は「名詞−一般」であるので、「名詞−サ変名詞」ではない。
このため、（１）のルールの条件を満たしている。よって、当該のルールを適用することができ、全体意味属性は「物理用語」であると推定される。出力結果は「物理用語」となる。

本実施形態においては、個別属性付与部２からは、意味属性が一般であるか「なし」である構成要素の見出しだけを情報補完部１０に送付する例を示したが、個別属性付与部２からは、すべての構成要素の見出しを情報補完部１０に送付するようにしてもよい。このとき、すでに意味属性が付与されている構成要素に対して、情報補完部１０からも意味属性が送られてくることが起こりうるが、その場合は、すでに付与されている意味属性と、情報補完部１０から送られてくる意味属性とに適切な重みをつけて総合して判定する関数を保持した判定手段を個別属性付与部２の内部に用意するものとする。

また、本実施形態においては、情報補完部１０からは構成要素の推定された意味属性だけを回答する例を示したが、情報補完部１０からは意味属性だけでなく推定の確信度をも回答するようにしてもよい。その場合、補完用属性推定部１２では、推定のために計算した各種の数値を何らかの形で確信度に変換して補完用要素語データベース１１に蓄えることになり、補完用要素語データベース１１の保持データは、単語の見出しと、意味属性と、確信度の３つの組となる。また、その場合、個別属性付与部２および全体属性推定部３における処理についても、確信度を参考にして全体属性の推定を行ってもよい。推定ルール４中のルールも、確信度をルールの条件部に含んでいてもよい。

また、本実施形態においては、複合語辞書１３は値として構成要素を持つ例を示したが、複合語辞書１３が見出しと意味属性だけを持ち、補完用属性推定部１２が見出しを分割して構成要素を求めるようにしてもよい。
また、本実施形態においては、補完用属性推定部１２は、意味属性ごとに頻度をカウントしているが、意味属性と複合語内の位置との両方の情報を用いて頻度をカウントするようにしてもよい。その場合、意味属性別頻度テーブル１４も「『磁場』という語が、意味属性が物理用語である複合語の、先頭要素として出現した回数」を保持できる形式に変更される。統計情報テーブル１５の形式もそれに準じて変更される。補完用要素語データベース１１に保持されるデータも、要素語の見出しと、複合語内の位置と、意味属性の３つ組のデータとなる。

以上のように、第４の実施形態によれば、未知の複合語を構成する各要素の意味属性が与えられていない場合にも、複合語全体の意味属性が推定できるという効果がある。

（利用形態）
本発明の実施形態においては、意味属性と組み合わせる情報として、文法的属性・統計的情報・要素間関係情報をそれぞれ単独で用いる例を示したが、それらの任意の組合せにより複合語全体の属性を推定する構成であってもよい。
また、本発明の実施形態においては、意味属性推定ルールは人手により事前に作成されている想定で説明したが、実際には、既知の複合語とその構成要素に関する各種情報から機械学習の手法により自動的に意味属性推定ルールを作成する構成を追加していてもよい。

本発明の第１の実施形態に係る辞書情報作成装置の概念図である。本発明に係る全体属性推定部のフローチャートである。本発明に係る推定ルール部の例を示す図である。本発明に係る文法的属性の付与の例を示す図である。本発明に係る意味属性の付与の例を示す図である。本発明に係る推定ルール部の例を示す図である。本発明に係る推定ルール部の例を示す図である。本発明の第２の実施形態に係る辞書情報作成装置の概念図である。本発明の第３の実施形態に係る辞書情報作成装置の概念図である。本発明の語彙統計情報データベース例の図である。本発明の要素間関係データベース例の図である。本発明の第４の実施形態に係る辞書情報作成装置の概念図である。本発明に係る複合語辞書のデータベース例の図である。本発明の補完用属性推定部のフローチャートである。本発明の意味属性別頻度テーブル例の図である。本発明に係る統計情報テーブル例の図である。本発明に係る保管用要素語データベースのデータ例の図である。本発明に係る複合語分割例を示す図である。本発明に係る意味属性付与の例を示す図である。本発明に係る意味属性付与の例を示す図である。本発明に係る推定ルール部の例を示す図である。

符号の説明

１複合語分割部
２個別属性付与部
３全体属性推定部
４推定ルール
５統計情報読出し部
６語彙統計情報DB
７要素間関係情報読出し部
８要素間関係DB
１０情報保管部
１１補完用要素語DB
１２補完用属性推定部
１３複合語辞書
１４意味別属性別頻度テーブル
１５統計情報テーブル

Claims

複合語を構成要素に分割する複合語分割部と、前記分割した各々の構成要素に意味属性を付与する個別属性付与部とを持つ、複合語の意味属性を推定する辞書情報作成装置において、
前記個別属性付与部により各構成要素に付与された意味属性、および、各構成要素に関する各種情報を用いて複合語全体の意味属性を推定するための情報が記述された推定ルールを備え、前記推定ルールを用いて入力された複合語の意味属性を推定する全体属性推定部と、を備えることを特徴とする辞書情報作成装置。
複合語の意味属性を推定する辞書情報作成装置において、
前記複合語を構成要素に分割する複合語分割部と、前記構成要素に分割した複合語の各々に意味属性を付与する個別属性付与部と、前記個別属性付与部は、上記構成要素に関する統計情報を持つ語彙統計情報データベースを備え、前記語彙統計情報データベースから統計情報を読み出す統計情報読み出し部とを備え、前記個別属性付与部により各構成要素に付与された意味属性、および、各構成要素に関する各種情報を用いて複合語全体の意味属性を推定するための情報が記述された推定ルールを備え、前記推定ルールを用いて入力された複合語の意味属性を推定する全体属性推定部と、を備えることを特徴とする辞書情報作成装置。
前記語彙統計情報データベースは、単語の出現頻度の統計値であることを特徴とする請求項２に記載の辞書情報作成装置。
複合語の意味属性を推定する辞書情報作成装置において、
複合語を構成要素に分割する複合語分割部と、各々の構成要素に意味属性を付与する個別属性付与部と、前記個別属性付与部により各構成要素に付与された意味属性、および、各構成要素に関する各種情報を用いて複合語全体の意味属性を推定するための情報が記述された推定ルールを備え、前記推定ルールを用いて入力された複合語の意味属性を推定する全体属性推定部と、要素間関係データベースから上記構成要素に関する要素間関係情報を読み出す要素間関係情報読み出し部と、を備えることを特徴とする辞書情報作成装置。
前記要素間関係データベースは、構成要素間の関係を対応させたものであることを特徴とする請求項４に記載の辞書情報作成装置。
複合語の意味属性を推定する辞書情報作成装置において、
複合語を構成要素に分割する複合語分割部と、各々の構成要素に意味属性を付与する個別属性付与部と、前記個別属性付与部により各構成要素に付与された意味属性、および、各構成要素に関する各種情報を用いて複合語全体の意味属性を推定するための情報が記述された推定ルールを備え、前記推定ルールを用いて入力された複合語の意味属性を推定する全体属性推定部と、前記個別属性付与部の求めに応じて、構成用語の意味属性情報を外部データベースから取得して回答する情報補完部と、を備えることを特徴とする辞書情報作成装置。
前記外部データベースは、複合語辞書情報を入力として、複合語の意味属性と構成要素との統計データを求めることにより構成要素の意味属性を推定する補完用属性推定部により作成されていることを特徴とする請求項６に記載の辞書情報作成装置。
前記複合語分割部は、複合語を構成要素に分割し、分割後の構成要素に文法的属性を付与することを特徴とする、請求項１から７のいずれかに記載の辞書情報作成装置。
前記推定ルールは、各構成要素の意味属性と、各構成要素に関する統計的情報または文法的属性または構成要素間の関係の情報、およびそれらの組合せとを用いて記述されていることを特徴とする、請求項１から８のいずれかに記載の辞書情報作成装置。