JP2007034410A - 辞書情報作成装置 - Google Patents

辞書情報作成装置 Download PDF

Info

Publication number
JP2007034410A
JP2007034410A JP2005212994A JP2005212994A JP2007034410A JP 2007034410 A JP2007034410 A JP 2007034410A JP 2005212994 A JP2005212994 A JP 2005212994A JP 2005212994 A JP2005212994 A JP 2005212994A JP 2007034410 A JP2007034410 A JP 2007034410A
Authority
JP
Japan
Prior art keywords
attribute
compound word
information
semantic
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2005212994A
Other languages
English (en)
Inventor
Tokuji Ikeno
篤司 池野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oki Electric Industry Co Ltd
Original Assignee
Oki Electric Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oki Electric Industry Co Ltd filed Critical Oki Electric Industry Co Ltd
Priority to JP2005212994A priority Critical patent/JP2007034410A/ja
Publication of JP2007034410A publication Critical patent/JP2007034410A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

【課題】 複合語の意味属性情報を推定する際の精度向上。
【解決手段】 第1の実施形態の辞書情報作成装置は、複合語分割部1と、個別属性付与部2と、全体属性推定部3と、推定ルール4とを有することを特徴とする辞書情報作成装置。
複合語分割部1は、辞書エントリ候補である複合語の入力を受け構成要素に分割し、各構成要素に文法的属性を付与し、複合語は個別属性付与部2に送る。個別属性付与部2は、複合語分割部1から分割済みの複合語の構成要素を受け取り、それらに対して意味属性を付与する。
次に、意味属性を付与された複合語は全体属性推定部3に送られ、全体属性推定部3は、個別属性付与部2から、構成要素に意味属性が付与された複合語を受け取り、構成要素に付与された情報と、推定ルール4中に記載されているルールを判定基準として、複合語全体の意味属性を推定して出力することを特徴とする。
【選択図】 図1

Description

本発明は、複合語の意味属性を推定する辞書情報作成装置に関するものである。
テキストを解析するときに問題となるのが、既存の辞書にない新しい用語の出現である。特に専門用語は技術の発展や社会の変化に伴って多くの語が生み出される。こういった専門用語の多くは複合語である。
新しい用語の獲得は、統計的に獲得することが可能である。これらの用語を辞書に追加することで、より正確にテキストを解析できる(例えば、非特許文献1参照。)。
ところが、新しい用語を辞書に追加するためには、文法情報や意味情報を付与して辞書に登録可能な形式に整形する必要がある。特に意味情報はテキストから情報を抽出する際に有用であるため辞書に記載することが望まれる情報である。
新しい用語が複合語であって、その意味情報を付与する場合の簡単な方法として、複合語の構成要素の意味属性を、既存手法、または専門用語辞書の見出しとの一致によって付与し、それら構成要素の意味属性により複合語全体の意味属性を推定する装置が考えられる(例えば、非特許文献2参照。)。
また、複合語の構成要素の中から中心語となるものを認定し、その要素の辞書情報を全体に波及する装置が提案されている(例えば、特許文献1参照。)。
特公平6-75264号公報 中川裕志、森辰則、湯本紘彰「出現頻度と連接頻度に基づく専門用語抽出」 自然言語処理 Vol.10, No.1, pp.27-45(2003,1) 関根聡「テキストからの情報抽出」 情報処理 Vol.40, No.4, (1999,4)
しかしながら、上記の単純な構成の装置では、推定に必要な情報が十分に得られないため、複合語の意味属性を誤って付与してしまうことが多いという問題がある。
従来の装置は、中心語が認定できなれば、複合語全体の辞書情報を求めることができない。また、特に意味属性に関しては、中心語は特別な意味属性を持っていないが、それ以外の語が特別な意味属性を持っていて、その結果、複合語全体は中心語以外の語の意味属性を持つほうが正しい場合もあるが、この問題を解決できない。
この課題を解決するために、未知の複合語(集合)が与えられた場合に、その複合語を構成する各要素の意味属性だけでなく、各要素の統計的情報・文法的属性・要素間関係情報とを利用することにより、複合語全体の意味属性を推定することを特徴とする辞書情報作成装置を提供することを目的とする。
また、従来の構成の装置でも、各構成要素の意味属性が実質的に与えられていない場合、すなわち意味属性がないか一般である構成要素だけである場合には複合語全体の意味属性を推定できないという問題がある。
以上の課題を解決するために、未知の複合語を構成する各要素の意味属性が実質的に与えられていない場合にも、まず構成要素の意味属性を推定することにより、複合語全体の意味属性が推定、あるいは推定精度を向上させるようにすることを特徴とする辞書情報作成装置を提供することを目的とする。
本発明の辞書情報作成装置は、複合語分割部と、個別属性付与部と、全体属性推定部と、推定ルールとを有することを特徴とする。
複合語分割部は、辞書エントリ候補である複合語の入力を受け付けて構成要素に分割し、各構成要素に文法的属性を付与し出力することを特徴とする。
また、上記構成の他に、統計情報読み出し部と語彙統計情報データベースとを付加した構成、要素間関係情報読み出し部と要素間関係データベースとを付加した構成、情報補完部と補完用要素語データと補完用属性推定部と複合語辞書を付加した構成がある。
本発明によれば、複合語の意味属性情報を推定する際の精度向上が実現できる。
(第1の実施形態)
図1に本装置の構成を示す。図示のように本辞書情報作成装置は、複合語分割部1と、個別属性付与部2と、全体属性推定部3と、推定ルール4とからなる。
複合語分割部1は、辞書エントリ候補である複合語の入力を受け付けて構成要素に分割し、各構成要素に文法的属性を付与する。次に、分割されて文法的属性を付与された複合語は個別属性付与部2に送られる。
個別属性付与部2は、複合語分割部1から分割済みの複合語の構成要素(語)を受け取り、それらに対して意味属性を付与する。次に、複合語は全体属性推定部3に送られる。
全体属性推定部3は、個別属性付与部2から、構成要素に意味属性が付与された複合語を受け取り、構成要素に付与された情報(文法属性および意味属性)と、推定ルール4中に記載されているルールを判定基準として、複合語全体の意味属性を推定して出力する。
推定ルール4は、複合語の構成要素の意味属性・文法的属性を用いて複合語全体の意味属性を推定するためのルールを集めたものである。
複合語分割部1には、既存の形態素解析装置をそのまま用いればよい。未知の複合語を一般的な形態素解析装置に入力すると、当該の複合語を形態素単位で分割し、形態素には品詞を付与して出力することができる。
個別属性付与部2は、従来からある固有表現抽出の手法や、既存の辞書と見出しが一致したものの属性を付与することにより実現することができる。(固有表現に含まれる人名・地名などの属性は、意味属性とは厳密には異なるが、広義には意味属性の一種とみなしても差し支えない。)
ここでは、まず、全体属性推定部3の動作を、図2を参照しながら説明する。
最初に、推定ルール4をメモリ内に読み込む(ステップ201)。
次に、個別属性付与部2から送られてきた全体属性推定対象の複合語に対して、上記推定ルールのうち未チェックのものを先頭から適用を試みる(ステップ202)。
推定ルール4は、例えば図3(1)〜(2)に示すようなデータの集合であるとする。このとき、推定対象となる複合語がc、複合語の構成要素がt1〜tnであるとすると、それぞれのルールは以下に示す内容を表している。
(1)意味属性が「化学用語」である要素が一つ以上存在し、かつ、先頭と末尾を除く構成要素(ti=2〜n-1)には意味属性に「人名」を持つものが一つも存在せず、かつ、末尾の要素の文法的属性(品詞)が「名詞−サ変名詞」ではない、という条件を満たすとき、複合語全体の意味属性に「化学用語」を代入する。
(2)意味属性が「化学用語」である要素が一つ以上存在し、かつ、先頭と末尾を除く構成要素(ti=2〜n-1)には意味属性に「人名」を持つものが一つも存在しない、という条件を満たすとき、複合語全体の意味属性に「化学用語」を代入する。
上記(1)と(2)のルールでは、(1)のルールの条件の方が厳しい。実際に格納されているルールは厳しい条件のルールが先に適用されるように順序づけられているものとする。そのため上記(1)と(2)の例の場合には(1)の方が先に適用されるように格納されることになる。
ステップ202で、条件が満たされてルールが適用可能であった場合、当該のルールに従って複合語全体の意味属性に指定された意味属性情報を付与し(ステップ204)、処理を終了する。
ステップ202で、条件が満たされずルールが適用できない場合は、当該のルールにチェック済みマークを付け(ステップ203)、ステップ202に戻る。
次に、具体的な入力を例にとって装置全体の処理の流れを説明する。
「アルカリ土類酸化物」という複合語が入力に与えられたとき、まず複合語分割部1において、当該の複合語は「アルカリ」「土」「類」「酸化」「物」の5つの構成要素に分割される。このとき同時に、各構成要素に文法的属性(品詞の大分類と詳細分類)が付与される(図4)。ここで、「名詞−一般」は一般的な名詞であることを、「名詞−サ変名詞」は語に「する」を付加して動詞化することが可能な名詞であることを、「名詞−接尾−一般」は一般的な接尾辞であること(ただし扱いは名詞)を、それぞれ意味する。
その後、個別属性付与部2において、各構成要素に意味属性が付与される(図5)。ここで、意味属性が「一般」である、とは、特定の意味属性を付与することができない一般的な意味を持った語であることを意味する。また、意味属性が「(なし)」とは、一般的な名詞ではないため本来意味属性を持たない語に対して付与される情報であることを意味する。
次に、全体属性推定部3において、図3に示したルールを読み込んで、未チェックの先頭ルール図3(1)の適用を試みる。このとき、当該の複合語は、図4、図5の情報を保持している。
ここで、
・「化学用語」という意味属性を持つ要素が1つ以上ある(「アルカリ」「酸化」)。
・先頭と末尾以外の構成要素である「土」「類」「酸化」の意味属性はそれぞれ「一般」「(なし)」「化学用語」なので、いずれも「人名」ではない。
・末尾要素である「物」の文法的属性(品詞)は「名詞−接尾−一般」であるので、「名詞−サ変名詞」ではない。
このため、(1)のルールの条件を満たしている。よって、当該のルールを適用することができ、全体意味属性は「化学用語」であると推定される。出力結果は「化学用語」となる。
以上、,本実施形態によれば、複合語の意味属性情報を推定する際に精度が向上するという効果がある。
(第2の実施形態)
図8に本実施形態の装置の構成を示す。図示のように本装置は、第1の実施形態の構成に、統計情報読み出し部5と、語彙統計情報データベース6とを付加した構成となっている。
構成の変更に伴い、個別属性付与部2は、第1の実施形態での機能に加えて、処理の対象となる複合語の構成要素の見出しを統計情報読み出し部5に送付し、統計情報読み出し部5から当該構成要素の統計情報を受け取る機能を持つ。その結果、個別属性付与部2は、構成要素の意味属性と統計情報を付与した状態の複合語を全体属性推定部3に送ることになる。
統計情報読み出し部5は、個別属性付与部2から複合語の各構成要素の見出しを受け取り、当該構成要素に関する統計情報を、語彙統計情報データベース6から読み出し、個別属性付与部2に送るものである。
語彙統計情報データベース6は、単語の出現頻度などの各種の統計値を読み出し可能な状態で蓄えてある。図10に示したようなデータを保持している。ここで、総出現回数とは、その見出しを持つ語が、統計情報の基となった集合内で何回出現したかということを意味し、IDF とは、Inverse Document Frequency を意味する。IDFは、特定の語が全文書集合中のどれぐらいの文書に出現するかを表す尺度であり、特定の少数の文書に出現する語はIDFが高くなる。また、語彙統計情報データベース6には、その他の様々な統計情報を持たせておくことが可能である。
なお、これらの統計情報は、既存辞書・推定対象となる未知の複合語集合・複合語を獲得するために用いた原文書集合、などから事前に収集されているものとする。
また、本実施形態における推定ルールには、図3に挙げた例のようなルールに加えて、統計的情報を利用した推定ルールが存在するものとする。図6に例を示す。この例は以下に示す内容を表している。
・意味属性が「化学用語」である要素が一つ以上存在し、かつ、その要素のIDF値が3.5よりも大きく、かつ、先頭と末尾を除く構成要素(ti=2〜n-1)には意味属性に「人名」を持つものが一つも存在しない、という条件を満たすとき、複合語全体の意味属性に「化学用語」を代入する。
他の構成部分は第1の実施形態と基本的な動作は同じである。具体的な例で全体の動作を説明する。
第1の実施形態の動作説明と同じく、「アルカリ土類酸化物」という複合語が入力に与えられたとき、複合語分割部1で「アルカリ」「土」「類」「酸化」「物」に分割されて、それぞれに文法的属性が付与され、さらに、個別属性付与部2で、各々の意味属性が付与されるところまでの動作は同じである。
その後に、個別属性付与部2が、まず、「アルカリ」というの見出しを統計情報読み出し部5に送る。すると、統計情報読み出し部5は、語彙統計情報データベース6から、「アルカリ」に関する統計情報として、総出現回数は8、IDFは2.5、などといったデータを読み出してくるので、その情報を個別属性付与部2に送る。個別属性付与部2はそれらの情報を「アルカリ」の統計情報として保持する。
同様に「土」「類」「酸化」「物」の情報も語彙統計情報データベースから読み出されて付与される。
全体属性推定部3に送られてきた当該の複合語は、図4、図5、図10の情報を持つことになる。ここで、推定ルール4中の各ルールに基づいて全体属性の推定を行うが、推定ルールの格納順により図3のルールよりも先に図6のルールが適用される場合を考える。
「化学用語」という意味属性を持つ要素は「アルカリ」「酸化」の2つであるが、「アルカリ」のIDF値は2.8であるので、条件を満たさない。しかし、「酸化」のIDF値は 3.9なので「酸化」の方が条件を満たしている。また、先頭と末尾以外の構成要素である「土」「類」「酸化」の意味属性はそれぞれ「一般」「(なし)」「化学用語」なので、いずれも「人名」ではない。
以上のように、図6のようなルールを適用することで、全体意味属性は「化学用語」と推定できるという効果がある。
(第3の実施形態)
図9に本実施形態の装置の構成を示す。図示のように本装置は、第1の実施形態の構成に、要素間関係情報読み出し部7と、要素間関係データベース8とを付加した構成となっている。
構成の変更に伴い、個別属性付与部2は、第1の実施形態での機能に加えて、処理の対象となる複合語の構成要素の見出しを組み合わせたものを要素間関係情報読み出し部7に送付し、要素間関係情報読み出し部7から当該構成要素の組合せに関する要素間関係情報を受け取る機能を持つ。その結果、個別属性付与部2は、構成要素の意味属性と、構成要素間の関係情報とを保持した状態の複合語を全体属性推定部3に送ることになる。
要素間関係情報読み出し部7は、個別属性付与部2から複合語の各構成要素の見出しを組み合わせたものを受け取り、当該構成要素組合せに関する要素間関係情報を、要素間関係データベース8から読み出し、個別属性付与部2に送るものである。
要素間関係データベース8は、要素間の関係に関する情報を読み出し可能な状態で蓄えてあるものである。図11に示したようなデータを保持している。ここで、「作用−対象」という関係は、「酸化」という作用の対象が「物」であることを意味し、「目的語−述部」という関係は、『「工学」を「実習する」』のように「実習」を動詞(述語)のように見ると「工学」が目的語となっていることを意味する。要素間に特筆すべき関係がない見出しの組合せについては、データベースにデータが存在しない。このとき、要素間関係データベース8からは、データが存在しない旨の情報が伝達される。
なお、これらの要素間関係の情報は、既存辞書、推定対象となる未知の複合語集合、複合語を獲得するために用いた原文書集合等から事前に収集されているものとする。
また、図7に本実施形態における推定ルール例を示す。図3に挙げた例のようなルールに加えて、要素間関係情報を利用した推定ルールが存在するものとする。この例は以下に示す内容を表している。
・意味属性が「化学用語」である要素が一つ以上存在し、かつ、先頭と末尾を除く構成要素(ti=2〜n-1)には意味属性に「人名」を持つものが一つも存在せず、かつ、末尾要素の一つ前の要素(tn-1)と、末尾要素(tn)との関係が「目的語−述部」ではない、という条件を満たすとき、複合語全体の意味属性に「化学用語」を代入する。
他の構成部分は第1の実施形態と基本的な動作は同じである。具体的な例で全体の動作を説明する。
第1の実施形態の動作説明と同じく、「アルカリ土類酸化物」という複合語が入力に与えられたとき、複合語分割部1で「アルカリ」「土」「類」「酸化」「物」に分割されて、それぞれに文法的属性が付与され、さらに、個別属性付与部2で、各々の意味属性が付与されるところまでの動作は同じである。
その後に、個別属性付与部2が、まず、「アルカリ」と「土」という見出しの組合せを要素間関係情報読み出し部7に送る。すると、要素間関係情報読み出し部7は、要素間関係データベース8から、「アルカリ」と「土」の組合せに関する要素間関係情報を読み出そうと試みるが、要素間関係データベース8には当該のデータがないという情報を受け取る。そこで、次は「土」と「類」、さらに「類」と「酸化」について試みるが、同じようにデータがないという情報を受け取る。
最後に「酸化」と「物」を送ると、この要素間関係情報は要素間関係データベース8に存在し、「作用−対象」という要素間関係情報が読み出され、個別属性付与部2に送られる。個別属性付与部2はこの情報を「酸化」と「物」に関連する情報として保持する。
全体属性推定部3に送られてきた当該の複合語は、図4、図5、図11に示すような、文法的属性、意味属性、要素間関係の情報を持つことになる。ここで、推定ルール4中の各ルールに基づいて全体属性の推定を行うが、推定ルールの格納順により図3のルールよりも先に図7のルールが適用される場合を考える。
ここで、
・「化学用語」という意味属性を持つ要素が1つ以上ある(「アルカリ」「酸化」)。
・先頭と末尾以外の構成要素である「土」「類」「酸化」の意味属性はそれぞれ「一般」「(なし)」「化学用語」なので、いずれも「人名」ではない。
・末尾要素の一つ前の要素である「酸化」と、末尾要素である「物」と、の要素間関係情報は「作用−対象」であるので、「名詞−サ変名詞」ではない。
このため、図7のルールの条件を満たしている。よって、当該のルールを適用することができ、全体意味属性は「化学用語」であると推定される。出力結果は「化学用語」となる。
ここでの説明では、連続する2つの構成要素に関する関係を利用するという記述になっているが、任意の位置にある任意の数の構成要素に関する関係を利用する形態であってもよい。
また、要素間関係データベース8は、ある構成要素の組合せに対して複数の要素間関係を値として持つことも可能である。さらに、値である要素間関係ごと信頼度スコアを持たせるようにしてもよい。このような場合には、個別属性付与部2において、複数の要素間関係情報のうちどれを選択するかを決定するための装置が新たに組み込まれることになる。
以上のように、第3の実施形態によれば、第1、第2の実施形態とは異なる情報を用いて、複合語の意味属性情報推定の精度を向上させることができるという効果がある。
(第4の実施形態)
図12に本実施形態の装置の構成を示す。図示のように本装置は、第1の実施形態の構成に、情報補完部10と、補完用要素語データ11と、補完用属性推定部12と、複合語辞書13を付加した構成となっている。
構成の変更に伴い、個別属性付与部2は、第1の実施形態での機能に加えて、意味属性が一般であるか「なし」である構成要素の見出しを情報補完部10に送付し、情報補完部10から当該構成要素の意味属性情報を受け取る機能を持つ。
情報補完部10は、個別属性付与部2から複合語の構成要素の見出しを受け取り、当該構成要素に関する推定意味属性を、補完用要素語データベース11から読み出し、個別属性付与部2に送るものである。
補完用要素語データベース11は、単語とその意味属性の情報を対にして、読み出し可能な状態で蓄えてある。図17に補完用要素語データベース例を示す。
補完用属性推定部12は、複合語辞書13のデータを受け取り、複合語の各構成要素に関連する統計情報を計算し、統計情報に基づいて構成要素語の意味属性を推定するものである。構成要素語と推定された意味属性の情報は、対にして補完用要素語データベース11に蓄えられる。補完用属性推定部12は、内部に意味属性別頻度テーブル14、および統計情報テーブル15を保持しているものとする。
意味属性別頻度テーブル14は、複合語辞書13のデータから統計情報を計算するための基礎データとして頻度をカウントして一時的に保持するためのテーブルである。図15に意味属性別頻度テーブル例を示す。意味属性別頻度テーブル14のデータを用いて統計情報を計算した結果が統計情報テーブル15に蓄えられる。図16に意味属性別頻度テーブル例を示す。統計情報テーブル15のデータを用いて構成要素語の意味属性を推定する。
複合語辞書13は、複合語の見出しと、その構成要素と、意味属性とを組にしたデータを保持している辞書である。図13に複合語辞書のデータ例を示す。例えば、第1の実施形態の装置における、入力される複合語と、それが分割された構成要素と、出力の意味属性情報とを蓄えたものを複合語辞書13として利用することもできる。他の構成部分は第1の実施形態と基本的な動作は同じである。
ここでは補完用属性推定部12の動作について図14を用いて詳細に説明する。
ステップ1401で、複合語辞書13の全データの処理が済んだかどうかをチェックする。
個々のデータの処理が全て済んでいる場合はステップ1407で統計情報を計算し、さらにステップ1408で意味属性を推移して終了する。ステップ1407、およびステップ1408の詳細内容については後述する。
ステップ1401で未処理のデータが残っている場合は、構成要素を1語読み込んで、意味属性別頻度テーブル14に当該の語を見出しとするデータがあるかどうかをチェックする(ステップ1402)。
当該の語を見出しとするデータが既にある場合には、ステップ1404で、意味属性別頻度テーブル14に当該の意味属性を項目とする列があるかどうかをチェックする。
当該の語を見出しとするデータがない場合には、テーブルに当該の見出しを作成し、すべての欄に初期値として0を入れておき(ステップ1403)、ステップ1404で、意味属性を項目とする列の有無をチェックする。
ステップ1404で、当該意味属性の列が既にある場合には、ステップ1406で、当該の見出し語・意味属性の欄を1つカウントアップしてステップ1401に戻る。
ステップ1404で、当該意味属性の列がまだない場合には、テーブルに当該の意味属性の列を作成し、すべての欄に初期値として0を入れておく(ステップ1405)。その後、ステップ1406で頻度をカウントアップしてステップ1401に戻る。なお、頻度をカウントアップするごとに、テーブルの関係する合計の欄の値も再計算される。
ステップ1407では、意味属性別頻度テーブル14のデータを参照し、統計情報を計算し、統計情報テーブル15に保持する。計算される統計情報には様々なものが考えられる。例えば、統計情報は統計情報テーブルとして図16に示したような分野別の出現確率などがある。以降、この例に基づいて説明するが、ここでの統計情報は、意味属性別頻度テーブル14の情報を利用して計算できるものであればよい。また、統計情報も1種類に限らず、複数種の統計情報を計算して、複数のテーブルに保持する構成であってもよい。
ステップ1408では、意味属性別頻度テーブル14、および統計情報テーブル15に保持されたデータを用いて個々の構成要素語の意味属性を推定する。推定の基準は、例えば、
・出現頻度が最も高い意味属性を、その要素語の意味属性とする。
・出現確率の最も高い意味属性を、その要素語の意味属性とする。
・全体での出現確率と意味属性別出現確率との間で差、または比を取り、最も値の大きい意味属性を、その要素語の意味属性とする。
などを用いる。また、これらの数値に適当な重みをつけて総合した評価関数を設定してもよい。
以下に、補完用属性推定部の動作を具体的な例を用いて説明する。
複合語辞書13のデータの一部が図13であったとする。まずステップ1401で、まだ処理をすべきデータがあるので、ステップ1402に進む。ステップ1402で、まず「磁場勾配」の最初の構成要素「磁場」を読み込んで頻度テーブルをチェックするが、まだ何もデータが入っていないので、ステップ1403で「磁場」の見出しのデータを作成する。この時点ではテーブルの列には何も用意されていないので、初期値を入れることはしない。
次にステップ1404だが、「磁場勾配」の意味属性が「物理用語」であるので、その構成要素である「磁場」にもテーブルの意味属性別頻度には「物理用語」のところにカウントしたい。ところが、「物理用語」の列はまだテーブルに用意されていないので、ステップ1405で「物理用語」の列を作成し、「物理用語」の列すべて(ここでは合計の欄を除くと「磁場」の行しかない)に初期値0を代入しておく。
その後、ステップ1406で「磁場」と「物理用語」の交差する欄の値に1を足す。同時に合計欄2箇所にも計算により1が入る。
またステップ1401でチェックするが、やはりまだ全データ処理済みではないので、今度はステップ1402で「勾配」を読み込んで、見出しはないので、ステップ1403で見出しを作成する。「勾配」と「物理用語」の交差する欄には初期値として0が入る。「物理用語」の列は既に存在するのでステップ1404から直接ステップ1406に進み、「勾配」と「物理用語」の交差する欄の値に1を足す。同時に、「勾配」の行の合計欄には1が、「物理用語」の列の合計欄には2が、それぞれ計算により値が入る。
またステップ1401に戻り、ステップ1402に進み、今度は「磁場安定度」の「磁場」を読み込むと、今度は見出しがあるので、ステップ1404に進む。意味属性の列もあるので1406に進み、「磁場」と「物理用語」の交差する欄の値に1を足すので、値は2になる。「磁場」の行、「物理用語」の例の合計欄の値は、それぞれ2と3になる。
同様の方法で、複合語辞書13のデータ(図13のデータ以外にも多くのデータがあったとする)を全て処理し終えたとする。そのときは、ステップ1401からステップ1407に進む。ここで、意味属性別頻度テーブル14は図15のようになっているとする。例えば、意味属性別出現確率のテーブルをもって統計情報とすると、統計情報は図16のような形で計算されることになる。ここで、各欄の値は、ある意味属性についての頻度の総和で、各見出しの頻度を割ったものである。
最後に、ステップ1408で、まず「磁場」の意味属性を推定するとする。ここで、仮に全体と意味属性別の出現確率比を判断基準にすると、
・一般属性での出現確率/全体出現確率=(5/500)/(25/1500)=0.6
・物理用語属性での出現確率/全体出現確率=(20/200)/(25/1500)=6
となって、物理属性としての出現確率の方が値が高いので、「磁場」の意味属性は「物理用語」であると推定する。
他の語も同様であるが、「天井」については、
・一般属性での出現確率/全体出現確率=(13/500)/(20/1500)=1.95
・建築用語属性での出現確率/全体出現確率=(7/50)/(20/1500)=10.5
となるので、「天井」の意味属性は建築用語であると推定する。このとき、出現頻度だけを判断基準に採用すると、一般属性のときの方が頻度は大きいので、推定結果が「一般属性」になってしまう。このように、判断するための指標をどう選んで組み合わせるかによって推定の結果は変化する。
以下に、(メインルーチンである)複合語の意味属性を推定する際の動作について具体的な例を用いて説明する。
「磁場配向」という複合語が入力に与えられたとき、まず複合語分割部1において、当該の複合語は「磁場」と「配向」の2つの構成要素に分割され、各構成要素に文法的属性が付与される(図18)。
その後、個別属性付与部2において、各構成要素に意味属性が付与される(図19)。次に、個別属性付与部2は、情報補完部10に対して意味属性が「名詞−一般」である「磁場」と「配向」を見出しとして送る。情報補完部10は、補完用要素語データベース11の要素語見出しをチェックする。今、「磁場」に対しては「物理用語」という意味属性が収められていて、「配向」に対する意味属性は収められていないものとすると、情報補完部10は「磁場」に対して「物理用語」という意味属性を返し、「配向」に対してはデータがないことを知らせる出力を返す。
その結果、個別属性付与部2での処理終了時点での各構成要素の意味属性は図20に示される状態に変更されることになる。
図21に示したルール(図3のルールの「化学用語」を「物理用語」に変更したもの)が用意されていたとすると、その後、全体属性推定部3において、当該ルールを読み込み、未チェックの先頭ルール図21(1)の適用を試みる。このとき、「磁場配向」は、図18、図20の情報を保持している。
ここで、
・「物理用語」という意味属性を持つ要素が1つ以上ある(「磁場」)。
・「磁場配向」は2語で構成されているので、先頭と末尾以外の構成要素は存在しないため、先頭と
・末尾以外の構成要素の意味属性は「人名」ではありえない。
末尾要素である「配向」の文法的属性(品詞)は「名詞−一般」であるので、「名詞−サ変名詞」ではない。
このため、(1)のルールの条件を満たしている。よって、当該のルールを適用することができ、全体意味属性は「物理用語」であると推定される。出力結果は「物理用語」となる。
本実施形態においては、個別属性付与部2からは、意味属性が一般であるか「なし」である構成要素の見出しだけを情報補完部10に送付する例を示したが、個別属性付与部2からは、すべての構成要素の見出しを情報補完部10に送付するようにしてもよい。このとき、すでに意味属性が付与されている構成要素に対して、情報補完部10からも意味属性が送られてくることが起こりうるが、その場合は、すでに付与されている意味属性と、情報補完部10から送られてくる意味属性とに適切な重みをつけて総合して判定する関数を保持した判定手段を個別属性付与部2の内部に用意するものとする。
また、本実施形態においては、情報補完部10からは構成要素の推定された意味属性だけを回答する例を示したが、情報補完部10からは意味属性だけでなく推定の確信度をも回答するようにしてもよい。その場合、補完用属性推定部12では、推定のために計算した各種の数値を何らかの形で確信度に変換して補完用要素語データベース11に蓄えることになり、補完用要素語データベース11の保持データは、単語の見出しと、意味属性と、確信度の3つの組となる。また、その場合、個別属性付与部2および全体属性推定部3における処理についても、確信度を参考にして全体属性の推定を行ってもよい。推定ルール4中のルールも、確信度をルールの条件部に含んでいてもよい。
また、本実施形態においては、複合語辞書13は値として構成要素を持つ例を示したが、複合語辞書13が見出しと意味属性だけを持ち、補完用属性推定部12が見出しを分割して構成要素を求めるようにしてもよい。
また、本実施形態においては、補完用属性推定部12は、意味属性ごとに頻度をカウントしているが、意味属性と複合語内の位置との両方の情報を用いて頻度をカウントするようにしてもよい。その場合、意味属性別頻度テーブル14も「『磁場』という語が、意味属性が物理用語である複合語の、先頭要素として出現した回数」を保持できる形式に変更される。統計情報テーブル15の形式もそれに準じて変更される。補完用要素語データベース11に保持されるデータも、要素語の見出しと、複合語内の位置と、意味属性の3つ組のデータとなる。
以上のように、第4の実施形態によれば、未知の複合語を構成する各要素の意味属性が与えられていない場合にも、複合語全体の意味属性が推定できるという効果がある。
(利用形態)
本発明の実施形態においては、意味属性と組み合わせる情報として、文法的属性・統計的情報・要素間関係情報をそれぞれ単独で用いる例を示したが、それらの任意の組合せにより複合語全体の属性を推定する構成であってもよい。
また、本発明の実施形態においては、意味属性推定ルールは人手により事前に作成されている想定で説明したが、実際には、既知の複合語とその構成要素に関する各種情報から機械学習の手法により自動的に意味属性推定ルールを作成する構成を追加していてもよい。
本発明の第1の実施形態に係る辞書情報作成装置の概念図である。 本発明に係る全体属性推定部のフローチャートである。 本発明に係る推定ルール部の例を示す図である。 本発明に係る文法的属性の付与の例を示す図である。 本発明に係る意味属性の付与の例を示す図である。 本発明に係る推定ルール部の例を示す図である。 本発明に係る推定ルール部の例を示す図である。 本発明の第2の実施形態に係る辞書情報作成装置の概念図である。 本発明の第3の実施形態に係る辞書情報作成装置の概念図である。 本発明の語彙統計情報データベース例の図である。 本発明の要素間関係データベース例の図である。 本発明の第4の実施形態に係る辞書情報作成装置の概念図である。 本発明に係る複合語辞書のデータベース例の図である。 本発明の補完用属性推定部のフローチャートである。 本発明の意味属性別頻度テーブル例の図である。 本発明に係る統計情報テーブル例の図である。 本発明に係る保管用要素語データベースのデータ例の図である。 本発明に係る複合語分割例を示す図である。 本発明に係る意味属性付与の例を示す図である。 本発明に係る意味属性付与の例を示す図である。 本発明に係る推定ルール部の例を示す図である。
符号の説明
1 複合語分割部
2 個別属性付与部
3 全体属性推定部
4 推定ルール
5 統計情報読出し部
6 語彙統計情報DB
7 要素間関係情報読出し部
8 要素間関係DB
10 情報保管部
11 補完用要素語DB
12 補完用属性推定部
13 複合語辞書
14 意味別属性別頻度テーブル
15 統計情報テーブル

Claims (9)

  1. 複合語を構成要素に分割する複合語分割部と、前記分割した各々の構成要素に意味属性を付与する個別属性付与部とを持つ、複合語の意味属性を推定する辞書情報作成装置において、
    前記個別属性付与部により各構成要素に付与された意味属性、および、各構成要素に関する各種情報を用いて複合語全体の意味属性を推定するための情報が記述された推定ルールを備え、前記推定ルールを用いて入力された複合語の意味属性を推定する全体属性推定部と、を備えることを特徴とする辞書情報作成装置。
  2. 複合語の意味属性を推定する辞書情報作成装置において、
    前記複合語を構成要素に分割する複合語分割部と、前記構成要素に分割した複合語の各々に意味属性を付与する個別属性付与部と、前記個別属性付与部は、上記構成要素に関する統計情報を持つ語彙統計情報データベースを備え、前記語彙統計情報データベースから統計情報を読み出す統計情報読み出し部とを備え、前記個別属性付与部により各構成要素に付与された意味属性、および、各構成要素に関する各種情報を用いて複合語全体の意味属性を推定するための情報が記述された推定ルールを備え、前記推定ルールを用いて入力された複合語の意味属性を推定する全体属性推定部と、を備えることを特徴とする辞書情報作成装置。
  3. 前記語彙統計情報データベースは、単語の出現頻度の統計値であることを特徴とする請求項2に記載の辞書情報作成装置。
  4. 複合語の意味属性を推定する辞書情報作成装置において、
    複合語を構成要素に分割する複合語分割部と、各々の構成要素に意味属性を付与する個別属性付与部と、前記個別属性付与部により各構成要素に付与された意味属性、および、各構成要素に関する各種情報を用いて複合語全体の意味属性を推定するための情報が記述された推定ルールを備え、前記推定ルールを用いて入力された複合語の意味属性を推定する全体属性推定部と、要素間関係データベースから上記構成要素に関する要素間関係情報を読み出す要素間関係情報読み出し部と、を備えることを特徴とする辞書情報作成装置。
  5. 前記要素間関係データベースは、構成要素間の関係を対応させたものであることを特徴とする請求項4に記載の辞書情報作成装置。
  6. 複合語の意味属性を推定する辞書情報作成装置において、
    複合語を構成要素に分割する複合語分割部と、各々の構成要素に意味属性を付与する個別属性付与部と、前記個別属性付与部により各構成要素に付与された意味属性、および、各構成要素に関する各種情報を用いて複合語全体の意味属性を推定するための情報が記述された推定ルールを備え、前記推定ルールを用いて入力された複合語の意味属性を推定する全体属性推定部と、前記個別属性付与部の求めに応じて、構成用語の意味属性情報を外部データベースから取得して回答する情報補完部と、を備えることを特徴とする辞書情報作成装置。
  7. 前記外部データベースは、複合語辞書情報を入力として、複合語の意味属性と構成要素との統計データを求めることにより構成要素の意味属性を推定する補完用属性推定部により作成されていることを特徴とする請求項6に記載の辞書情報作成装置。
  8. 前記複合語分割部は、複合語を構成要素に分割し、分割後の構成要素に文法的属性を付与することを特徴とする、請求項1から7のいずれかに記載の辞書情報作成装置。
  9. 前記推定ルールは、各構成要素の意味属性と、各構成要素に関する統計的情報または文法的属性または構成要素間の関係の情報、およびそれらの組合せとを用いて記述されていることを特徴とする、請求項1から8のいずれかに記載の辞書情報作成装置。
JP2005212994A 2005-07-22 2005-07-22 辞書情報作成装置 Pending JP2007034410A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005212994A JP2007034410A (ja) 2005-07-22 2005-07-22 辞書情報作成装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005212994A JP2007034410A (ja) 2005-07-22 2005-07-22 辞書情報作成装置

Publications (1)

Publication Number Publication Date
JP2007034410A true JP2007034410A (ja) 2007-02-08

Family

ID=37793642

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005212994A Pending JP2007034410A (ja) 2005-07-22 2005-07-22 辞書情報作成装置

Country Status (1)

Country Link
JP (1) JP2007034410A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013020427A (ja) * 2011-07-11 2013-01-31 Nec Corp 複合語概念分析システム、方法およびプログラム
WO2014010667A1 (ja) * 2012-07-12 2014-01-16 学校法人帝京大学 認知機能検査法、及びそのキット

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013020427A (ja) * 2011-07-11 2013-01-31 Nec Corp 複合語概念分析システム、方法およびプログラム
WO2014010667A1 (ja) * 2012-07-12 2014-01-16 学校法人帝京大学 認知機能検査法、及びそのキット
JPWO2014010667A1 (ja) * 2012-07-12 2016-06-23 学校法人帝京大学 認知機能検査法、及びそのキット

Similar Documents

Publication Publication Date Title
TWI636452B (zh) 語音識別方法及系統
CN108875040B (zh) 词典更新方法及计算机可读存储介质
CN108897842B (zh) 计算机可读存储介质及计算机系统
CN107480143B (zh) 基于上下文相关性的对话话题分割方法和系统
US8892420B2 (en) Text segmentation with multiple granularity levels
US8190628B1 (en) Phrase generation
US8364470B2 (en) Text analysis method for finding acronyms
US8577155B2 (en) System and method for duplicate text recognition
CN107291684B (zh) 语言文本的分词方法和系统
CN108124477A (zh) 基于伪数据改进分词器以处理自然语言
JP2011505638A (ja) Cjk名前検出
JP6251562B2 (ja) 同一意図の類似文を作成するプログラム、装置及び方法
CN103559313B (zh) 搜索方法及装置
TW201826145A (zh) 從中文語料庫提取知識的方法和系統
CN109522396B (zh) 一种面向国防科技领域的知识处理方法及系统
JP6867963B2 (ja) 要約評価装置、方法、プログラム、及び記憶媒体
CN104021202A (zh) 一种知识共享平台的词条处理装置和方法
JP5097802B2 (ja) ローマ字変換を用いる日本語自動推薦システムおよび方法
JP4979637B2 (ja) 複合語の区切り位置を推定する複合語区切り推定装置、方法、およびプログラム
JP5770753B2 (ja) Cjk名前検出
CN111680146A (zh) 确定新词的方法、装置、电子设备及可读存储介质
JP2007034410A (ja) 辞書情報作成装置
JP5757551B2 (ja) 意味分類付与装置、意味分類付与方法、意味分類付与プログラム
CN113553410B (zh) 长文档处理方法、处理装置、电子设备和存储介质
JP6623840B2 (ja) 同義語検出装置、同義語検出方法及び同義語検出用コンピュータプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20071009

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20071113

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080107

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20080122