JP2001067354A - 新語性判定装置及び新語性判定方法 - Google Patents
新語性判定装置及び新語性判定方法Info
- Publication number
- JP2001067354A JP2001067354A JP24216399A JP24216399A JP2001067354A JP 2001067354 A JP2001067354 A JP 2001067354A JP 24216399 A JP24216399 A JP 24216399A JP 24216399 A JP24216399 A JP 24216399A JP 2001067354 A JP2001067354 A JP 2001067354A
- Authority
- JP
- Japan
- Prior art keywords
- word
- dictionary
- component
- new
- pattern
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Machine Translation (AREA)
Abstract
(57)【要約】
【課題】 複合語の語構成要素間の関係を基に、新語性
(辞書登録の有用性)を判定する新語性判定装置を提供
する。 【解決手段】 語の構文的性質を記載した語構成要素辞
書13と、前記語構成要素辞書を用いて入力された語の内
部構造を解析し、語構成要素間の関係が、あらかじめ決
められた関係のうち、どれに該当するかを判定する語構
成パタン判定手段11と、前記語構成パタン判定手段によ
り判定された語構成パタンに基づいて、当該語の新語性
を判定する新語性判定手段12とで新語性判定装置を構成
している。入力文字列を語構成要素に分割し、各語構成
要素の構文情報と各語構成要素間の共起関係とを解析し
て、前記語の語構成パタンを判定し、この語構成パタン
をあらかじめ決められた語構成パタンと比較して、当該
語の新語性を判定しており、複合語を構成する語構成要
素の関係を考慮して、辞書登録の有用性を備えた新語か
どうかを判定できる。
(辞書登録の有用性)を判定する新語性判定装置を提供
する。 【解決手段】 語の構文的性質を記載した語構成要素辞
書13と、前記語構成要素辞書を用いて入力された語の内
部構造を解析し、語構成要素間の関係が、あらかじめ決
められた関係のうち、どれに該当するかを判定する語構
成パタン判定手段11と、前記語構成パタン判定手段によ
り判定された語構成パタンに基づいて、当該語の新語性
を判定する新語性判定手段12とで新語性判定装置を構成
している。入力文字列を語構成要素に分割し、各語構成
要素の構文情報と各語構成要素間の共起関係とを解析し
て、前記語の語構成パタンを判定し、この語構成パタン
をあらかじめ決められた語構成パタンと比較して、当該
語の新語性を判定しており、複合語を構成する語構成要
素の関係を考慮して、辞書登録の有用性を備えた新語か
どうかを判定できる。
Description
【0001】
【発明の属する技術分野】本発明は、文字列が検索用辞
書等に載せるべき新語であるかどうかを判定する新語性
判定装置と、その判定方法に関し、特に、複合語の構成
要素間の関係に着目して、その複合語の新語性を判定す
るようにしたものである。
書等に載せるべき新語であるかどうかを判定する新語性
判定装置と、その判定方法に関し、特に、複合語の構成
要素間の関係に着目して、その複合語の新語性を判定す
るようにしたものである。
【0002】
【従来の技術】新しい言葉は、日々、生まれており、新
聞や雑誌、学術誌などには、新たな表現の用語が常に出
現する。こうした文献の機械検索は、単語辞書を用いて
行われるが、検索精度を維持するためには、新しい用語
の辞書への登録が欠かせない作業となる。
聞や雑誌、学術誌などには、新たな表現の用語が常に出
現する。こうした文献の機械検索は、単語辞書を用いて
行われるが、検索精度を維持するためには、新しい用語
の辞書への登録が欠かせない作業となる。
【0003】従来、テキストから、辞書に登録されてい
ない単語を抽出する装置として、代表的なものでは、テ
キストを形態素解析し、形態素解析に失敗した部分を解
析して新語候補を抽出する未登録語判定装置が知られて
いる。この装置では、形態素解析の失敗をトリガーとし
て新語抽出が行われるため、新しい表現の複合語であっ
ても、個々の語の形態素解析に見かけ上成功した場合に
は、新語抽出のトリガーが発生せず、複合語の新語抽出
ができないことになる。
ない単語を抽出する装置として、代表的なものでは、テ
キストを形態素解析し、形態素解析に失敗した部分を解
析して新語候補を抽出する未登録語判定装置が知られて
いる。この装置では、形態素解析の失敗をトリガーとし
て新語抽出が行われるため、新しい表現の複合語であっ
ても、個々の語の形態素解析に見かけ上成功した場合に
は、新語抽出のトリガーが発生せず、複合語の新語抽出
ができないことになる。
【0004】こうした点を解決するため、特開平10−
240736号公報には、テキストを形態素解析し、並
んだ語が、統計的に求めた条件を満たしている場合に、
その並んだ語を未登録の複合語として抽出する方法が開
示されている。この方法によれば、形態素解析の成功・
不成功によらず、複合語の新語を抽出することができ
る。
240736号公報には、テキストを形態素解析し、並
んだ語が、統計的に求めた条件を満たしている場合に、
その並んだ語を未登録の複合語として抽出する方法が開
示されている。この方法によれば、形態素解析の成功・
不成功によらず、複合語の新語を抽出することができ
る。
【0005】
【発明が解決しようとする課題】しかし、従来の未登録
語判定装置では、未登録語判定の目的が正確な形態素解
析を行う点にあるため、目的に沿う新語を抽出して全て
辞書に登録しているが、ドキュメントから新語を抽出し
て、検索辞書の見出しとして登録することを考えた場合
には、辞書の大きさが無制限に大きくなることを防ぐた
めにも、辞書登録の価値がある、有用性を備えた新語だ
けを登録することが望ましい。
語判定装置では、未登録語判定の目的が正確な形態素解
析を行う点にあるため、目的に沿う新語を抽出して全て
辞書に登録しているが、ドキュメントから新語を抽出し
て、検索辞書の見出しとして登録することを考えた場合
には、辞書の大きさが無制限に大きくなることを防ぐた
めにも、辞書登録の価値がある、有用性を備えた新語だ
けを登録することが望ましい。
【0006】一般に、複合語には、複合語を構成する語
構成要素の意味を一定の規則にしたがって合成した場合
に、複合語全体の意味が得られる種類のものと、語構成
要素の意味を合成しても、複合語全体の意味とならない
ものとがある。
構成要素の意味を一定の規則にしたがって合成した場合
に、複合語全体の意味が得られる種類のものと、語構成
要素の意味を合成しても、複合語全体の意味とならない
ものとがある。
【0007】例えば、「自動車生産」や「解析結果」と
云う複合語は、「自動車を生産すること(あるいはその
量)」「解析した結果」を意味しているが、これは語構
成要素の「自動車」「生産」「解析」「結果」の各意味
が分かっていれば、「自動車生産」「解析結果」の意味
も容易に理解できる。
云う複合語は、「自動車を生産すること(あるいはその
量)」「解析した結果」を意味しているが、これは語構
成要素の「自動車」「生産」「解析」「結果」の各意味
が分かっていれば、「自動車生産」「解析結果」の意味
も容易に理解できる。
【0008】ここでは、これらを「合成的な複合語」と
呼ぶことにする。合成的な複合語の場合、例えば「自動
車生産」に対しては「原油生産」「テレビ生産」など生
産する対象に応じて、幾らでも同種の語が生成・使用さ
れ得る。
呼ぶことにする。合成的な複合語の場合、例えば「自動
車生産」に対しては「原油生産」「テレビ生産」など生
産する対象に応じて、幾らでも同種の語が生成・使用さ
れ得る。
【0009】これに対して、「数値積分」「回帰直線」
といった例においては、「数値」「積分」「回帰」「直
線」の各語の意味を理解していたとしても、それだけで
は、「数値積分」「回帰直線」が何を意味するのかは理
解できない。また、「草の根運動」「自転車操業」とい
った語も、「草の根」「運動」「自転車」「操業」の各
語の意味を組み合わせても、「草の根運動」「自転車操
業」の意味にはならない。
といった例においては、「数値」「積分」「回帰」「直
線」の各語の意味を理解していたとしても、それだけで
は、「数値積分」「回帰直線」が何を意味するのかは理
解できない。また、「草の根運動」「自転車操業」とい
った語も、「草の根」「運動」「自転車」「操業」の各
語の意味を組み合わせても、「草の根運動」「自転車操
業」の意味にはならない。
【0010】ここでは、これらを「非合成的な複合語」
と呼ぶことにする。非合成的な複合語の場合は、同種の
語の生成は自由ではない。例えば、「木の根運動」とか
「自動車操業」のような語は存在しない。
と呼ぶことにする。非合成的な複合語の場合は、同種の
語の生成は自由ではない。例えば、「木の根運動」とか
「自動車操業」のような語は存在しない。
【0011】こうしたことから、辞書には、非合成的な
複合語のみを新語として、登録することが望ましい。
複合語のみを新語として、登録することが望ましい。
【0012】しかし、これまで、複合語の語構成要素間
の関係に基づいて辞書登録する新語を選択することは行
われておらず、また、複合語の語構成要素間の関係を考
慮して新語を抽出するツールも開発されていない。
の関係に基づいて辞書登録する新語を選択することは行
われておらず、また、複合語の語構成要素間の関係を考
慮して新語を抽出するツールも開発されていない。
【0013】本発明は、こうした課題に応えるものであ
り、複合語の語構成要素間の関係を基に、新語性(辞書
登録の有用性)を判定することが可能な新語性判定装置
を提供し、また、その判定方法を提供することを目的と
している。
り、複合語の語構成要素間の関係を基に、新語性(辞書
登録の有用性)を判定することが可能な新語性判定装置
を提供し、また、その判定方法を提供することを目的と
している。
【0014】
【課題を解決するための手段】そこで、本発明では、語
を構成し得る文字列に対する構文的性質を記載した語構
成要素辞書と、前記語構成要素辞書を用いて入力された
語の内部構造を解析し、語構成要素間の関係が、あらか
じめ決められた関係のうち、どれに該当するかを判定す
る語構成パタン判定手段と、前記語構成パタン判定手段
により判定された語構成パタンに基づいて、当該語の新
語性を判定する新語性判定手段とで新語性判定装置を構
成している。
を構成し得る文字列に対する構文的性質を記載した語構
成要素辞書と、前記語構成要素辞書を用いて入力された
語の内部構造を解析し、語構成要素間の関係が、あらか
じめ決められた関係のうち、どれに該当するかを判定す
る語構成パタン判定手段と、前記語構成パタン判定手段
により判定された語構成パタンに基づいて、当該語の新
語性を判定する新語性判定手段とで新語性判定装置を構
成している。
【0015】また、新語性判定方法において、入力され
た語の文字列を語構成要素に分割し、各語構成要素の構
文情報と各語構成要素間の共起関係とを解析して、前記
語の語構成パタンを判定し、この語構成パタンをあらか
じめ決められた語構成パタンと比較して、当該語の新語
性を判定するようにしている。
た語の文字列を語構成要素に分割し、各語構成要素の構
文情報と各語構成要素間の共起関係とを解析して、前記
語の語構成パタンを判定し、この語構成パタンをあらか
じめ決められた語構成パタンと比較して、当該語の新語
性を判定するようにしている。
【0016】そのため、複合語を構成する語構成要素の
関係を考慮して、辞書登録の有用性を備えた新語かどう
かを判定することができる。
関係を考慮して、辞書登録の有用性を備えた新語かどう
かを判定することができる。
【0017】
【発明の実施の形態】本発明の実施形態の新語性判定装
置は、図1に示すように、入力する新語候補(複合語)
の語構成パタンを判定する語構成パタン判定部11と、語
構成パタンに基づいて新語候補が辞書登録の有用性を備
えているかどうかを判定する新語性判定部12と、語構成
パタン判定部11での語構成パタンの判定に使用する語構
成要素辞書13、語構成要素共起辞書14、シソーラス17、
カテゴリ共起辞書18、語構成要素種辞書19及びコーパス
(一般文書の集合)15と、コーパス中に現れる語構成要
素間の共起頻度を算出する共起頻度取得部16とを備えて
いる。
置は、図1に示すように、入力する新語候補(複合語)
の語構成パタンを判定する語構成パタン判定部11と、語
構成パタンに基づいて新語候補が辞書登録の有用性を備
えているかどうかを判定する新語性判定部12と、語構成
パタン判定部11での語構成パタンの判定に使用する語構
成要素辞書13、語構成要素共起辞書14、シソーラス17、
カテゴリ共起辞書18、語構成要素種辞書19及びコーパス
(一般文書の集合)15と、コーパス中に現れる語構成要
素間の共起頻度を算出する共起頻度取得部16とを備えて
いる。
【0018】共起頻度とは、コーパス中で、語構成要素
A、Bが特定の構文関係Cを形成している頻度(=f
(A,B,C))を云う。
A、Bが特定の構文関係Cを形成している頻度(=f
(A,B,C))を云う。
【0019】語構成要素辞書13は、語を構成し得る文字
列(語や形態素の文字列)に対して構文的性質を記載し
た辞書であり、図9に示すように、語構成要素の見出し
に対して、品詞及び他動詞/自動詞の区別を記述してい
る。
列(語や形態素の文字列)に対して構文的性質を記載し
た辞書であり、図9に示すように、語構成要素の見出し
に対して、品詞及び他動詞/自動詞の区別を記述してい
る。
【0020】語構成要素共起辞書14は、語構成要素の間
の構文的関係の構成し易さを記載した辞書であり、図1
0に示すように、主要部と非主要部との関係にある語構
成要素が共起種別の「を」や「が」によって関係付けら
れる割合を、共起強度として記述している。
の構文的関係の構成し易さを記載した辞書であり、図1
0に示すように、主要部と非主要部との関係にある語構
成要素が共起種別の「を」や「が」によって関係付けら
れる割合を、共起強度として記述している。
【0021】シソーラス17は、語構成要素の意味カテゴ
リへの帰属度を記載した辞書であり、図11に示すよう
に、例えば、「車」と云う構成要素が「くるま」と云う
意味を持つ割合を、帰属度として記述している。
リへの帰属度を記載した辞書であり、図11に示すよう
に、例えば、「車」と云う構成要素が「くるま」と云う
意味を持つ割合を、帰属度として記述している。
【0022】カテゴリ共起辞書18は、二つの意味カテゴ
リに対して両カテゴリに属する平均的な語構成要素の間
の意味的関係の成り立ち易さを記載した辞書であり、図
12に示すように、主要部の意味カテゴリを持つ語と非
主要部の意味カテゴリを持つ語とが共起種別の「を」や
「が」によって意味を持つ割合を、共起強度として記述
している。
リに対して両カテゴリに属する平均的な語構成要素の間
の意味的関係の成り立ち易さを記載した辞書であり、図
12に示すように、主要部の意味カテゴリを持つ語と非
主要部の意味カテゴリを持つ語とが共起種別の「を」や
「が」によって意味を持つ割合を、共起強度として記述
している。
【0023】語構成要素種辞書19は、語構成要素が漢語
であるか和語であるかの語構成要素種情報を記載した辞
書であり、図13に示すように、語構成要素に対して、
和語かどうかの区別を記述している。
であるか和語であるかの語構成要素種情報を記載した辞
書であり、図13に示すように、語構成要素に対して、
和語かどうかの区別を記述している。
【0024】コーパス15には、例えば、図14に示す文
書が集められている。
書が集められている。
【0025】また、語構成パタン判定部11は、図2に示
すように、入力する複合語の文字列を語構成要素に分割
する語分割部21と、複合語の内部構造を推定する内部構
造推定部22と、複数の語構成パタンが記述された語構成
パタンテーブル24と、複合語の内部構造を語構成パタン
テーブル24と照合して新語候補の語構成パタンを検出す
るパタンマッチ部23とを具備している。
すように、入力する複合語の文字列を語構成要素に分割
する語分割部21と、複合語の内部構造を推定する内部構
造推定部22と、複数の語構成パタンが記述された語構成
パタンテーブル24と、複合語の内部構造を語構成パタン
テーブル24と照合して新語候補の語構成パタンを検出す
るパタンマッチ部23とを具備している。
【0026】また、新語性判定部12は、図3に示すよう
に、新語性の判定に使用するパタン新語性対応テーブル
30を具備しており、このパタン新語性対応テーブル30に
は、図15に示すように、パタン名と新語性の有無との
関係が記述されている。
に、新語性の判定に使用するパタン新語性対応テーブル
30を具備しており、このパタン新語性対応テーブル30に
は、図15に示すように、パタン名と新語性の有無との
関係が記述されている。
【0027】次に、この新語性判定装置の動作について
説明する。図4は、この装置の全体的な動作フローを示
している。
説明する。図4は、この装置の全体的な動作フローを示
している。
【0028】ステップ1:語構成パタン判定部11の語分
割部21は、コーパス15中に現れる語構成要素のリストを
取得し、また、 ステップ2:共起頻度取得部16を通じて、コーパス15中
に現れる語構成要素間の共起頻度を取得する。
割部21は、コーパス15中に現れる語構成要素のリストを
取得し、また、 ステップ2:共起頻度取得部16を通じて、コーパス15中
に現れる語構成要素間の共起頻度を取得する。
【0029】ステップ3:新語候補の文字列が入力する
と、 ステップ4:語構成パタン判定部11は、この新語候補が
どの語構成パタンに該当するかを判定する。該当する語
構成パタンは複数の場合も有り得る。
と、 ステップ4:語構成パタン判定部11は、この新語候補が
どの語構成パタンに該当するかを判定する。該当する語
構成パタンは複数の場合も有り得る。
【0030】ステップ5:新語性判定部12は、判定され
た語構成パタンの中に合成的な複合語のパタンが含まれ
ていないかを判定し、 ステップ6:合成的な複合語のパタンが含まれていると
きは、辞書登録すべき新語ではないと判定し、 ステップ7:合成的な複合語のパタンが含まれていない
ときは、辞書登録すべき新語であると判定する。
た語構成パタンの中に合成的な複合語のパタンが含まれ
ていないかを判定し、 ステップ6:合成的な複合語のパタンが含まれていると
きは、辞書登録すべき新語ではないと判定し、 ステップ7:合成的な複合語のパタンが含まれていない
ときは、辞書登録すべき新語であると判定する。
【0031】図5は、語構成パタン判定部11の動作フロ
ーを示している。この動作は、図4におけるステップ4
の動作に該当している。
ーを示している。この動作は、図4におけるステップ4
の動作に該当している。
【0032】ステップ11:語分割部21は、語構成要素辞
書13の語構成要素及びコーパス15に現れる語構成要素を
用いて、入力する新語候補の文字列を、この語構成要素
の単位で区切り、新語候補を語構成要素に分割する。
書13の語構成要素及びコーパス15に現れる語構成要素を
用いて、入力する新語候補の文字列を、この語構成要素
の単位で区切り、新語候補を語構成要素に分割する。
【0033】いま、新語候補として、図16に示す語が
入力したとする。語分割部21は、図9に示す語構成要素
辞書13と、図14に示すコーパス15から抽出された語構
成要素のリストとを用いて、この入力語を図17のよう
に分割する。ここで、「RV生産」は、コーパス中の語
「RV」と語構成要素辞書中の「生産」とに分割されて
いる。また、「自動車生産」は、「自動車」「生産」と
「自動」「車」「生産」の二通りに分割されている。
入力したとする。語分割部21は、図9に示す語構成要素
辞書13と、図14に示すコーパス15から抽出された語構
成要素のリストとを用いて、この入力語を図17のよう
に分割する。ここで、「RV生産」は、コーパス中の語
「RV」と語構成要素辞書中の「生産」とに分割されて
いる。また、「自動車生産」は、「自動車」「生産」と
「自動」「車」「生産」の二通りに分割されている。
【0034】ステップ12:内部構造推定部22は、分割さ
れた文字列(分割候補)の各々について、内部構造を推
定する。
れた文字列(分割候補)の各々について、内部構造を推
定する。
【0035】この内部構造の推定動作は、図6のフロー
図に示すように、 ステップ21:分割された各語構成要素に対する素性を推
定し、 ステップ22:次いで、各語構成要素間の共起関係を推定
する、と云う手順で行われる。
図に示すように、 ステップ21:分割された各語構成要素に対する素性を推
定し、 ステップ22:次いで、各語構成要素間の共起関係を推定
する、と云う手順で行われる。
【0036】素性の推定は、図7のフロー図に示すよう
に、 ステップ31:まず、語構成要素辞書13を参照し、分割候
補の各語構成要素に対して、可能な範囲で語構成要素辞
書13に記載されている構文的素性を付与する。図18に
は、分割候補の語構成要素に対して、図9の語構成要素
辞書13から読み取った構文的素性(品詞及び他動詞/自
動詞の区別)を付与した状態を示している。ただし、
「RV」は語構成要素辞書13中に無いので、未付与であ
る。
に、 ステップ31:まず、語構成要素辞書13を参照し、分割候
補の各語構成要素に対して、可能な範囲で語構成要素辞
書13に記載されている構文的素性を付与する。図18に
は、分割候補の語構成要素に対して、図9の語構成要素
辞書13から読み取った構文的素性(品詞及び他動詞/自
動詞の区別)を付与した状態を示している。ただし、
「RV」は語構成要素辞書13中に無いので、未付与であ
る。
【0037】ステップ32:次に、コーパス中の語構成要
素間の共起頻度を参照し、分割候補の語構成要素に対す
る構文情報が共起頻度から得られた場合には、それを構
文的素性として分割候補の語構成要素に付与する。
素間の共起頻度を参照し、分割候補の語構成要素に対す
る構文情報が共起頻度から得られた場合には、それを構
文的素性として分割候補の語構成要素に付与する。
【0038】図19には、コーパス中の語構成要素間の
共起頻度に基づいて得られた構文情報を示し、図20に
は、語構成要素辞書13の構文情報を付与した分割候補
(図18)に対して、さらに、コーパスから得られた構
文情報を付与した状態を示している。ここでは「RV」
に対して「名詞」という構文情報が付与されている。
共起頻度に基づいて得られた構文情報を示し、図20に
は、語構成要素辞書13の構文情報を付与した分割候補
(図18)に対して、さらに、コーパスから得られた構
文情報を付与した状態を示している。ここでは「RV」
に対して「名詞」という構文情報が付与されている。
【0039】ステップ33:次に、シソーラス17を参照
し、分割候補の語構成要素に対して、可能なカテゴリ素
性を付与する。
し、分割候補の語構成要素に対して、可能なカテゴリ素
性を付与する。
【0040】図21には、図20の分割候補の語構成要
素に、さらに、図11に示すシソーラス17から読み取っ
た意味カテゴリを付与した状態を示している。ただし、
「自動」「RV」「現地」「表現」についてはシソーラ
ス中に記載されていないので未付与である。なお、ここ
では帰属度を考慮せずにカテゴリ情報を付与している
が、閾値を設け、帰属度が閾値以上の場合にだけカテゴ
リ情報を付与するようにしても良い。
素に、さらに、図11に示すシソーラス17から読み取っ
た意味カテゴリを付与した状態を示している。ただし、
「自動」「RV」「現地」「表現」についてはシソーラ
ス中に記載されていないので未付与である。なお、ここ
では帰属度を考慮せずにカテゴリ情報を付与している
が、閾値を設け、帰属度が閾値以上の場合にだけカテゴ
リ情報を付与するようにしても良い。
【0041】ステップ34:次に、語構成要素種辞書を参
照し、分割候補の語構成要素に対して、和語か漢語かの
ラベルを振る。
照し、分割候補の語構成要素に対して、和語か漢語かの
ラベルを振る。
【0042】図22には、図13の語構成要素種辞書に
基づいて、「車」「殺し」「父親」の語構成要素に「+
和語」のラベルが付与された状態を示している。
基づいて、「車」「殺し」「父親」の語構成要素に「+
和語」のラベルが付与された状態を示している。
【0043】次に、ステップ22の各語構成要素間の共起
関係の推定は、図8に示すように、 ステップ41:まず、語構成要素共起辞書14を参照し、分
割候補の語構成要素間に可能な共起関係ラベルを付与す
る。
関係の推定は、図8に示すように、 ステップ41:まず、語構成要素共起辞書14を参照し、分
割候補の語構成要素間に可能な共起関係ラベルを付与す
る。
【0044】図23には、図10の語構成要素共起辞書
に基づいて、「自動車」と「生産」、「ダム」と「決
壊」の分割候補に対して、関係(共起種別)を表す
「を」「が」を付与した状態を示している。なお、ここ
では共起強度を考慮せずに共起種別を付与しているが、
閾値を設け、共起強度が閾値以上の場合にだけ共起種別
を付与するようにしても良い。
に基づいて、「自動車」と「生産」、「ダム」と「決
壊」の分割候補に対して、関係(共起種別)を表す
「を」「が」を付与した状態を示している。なお、ここ
では共起強度を考慮せずに共起種別を付与しているが、
閾値を設け、共起強度が閾値以上の場合にだけ共起種別
を付与するようにしても良い。
【0045】ステップ42:次に、コーパス中の語構成要
素間の共起頻度を参照し、分割候補の語構成要素間に可
能な共起関係ラベルを付与する。
素間の共起頻度を参照し、分割候補の語構成要素間に可
能な共起関係ラベルを付与する。
【0046】共起頻度取得手段16が取得したコーパス中
に現れる語構成要素間の共起頻度のデータから図24に
示す共起頻度結果が抽出されたとする。図25には、こ
の抽出結果に基づいて、「現地」と「生産」、「グラ
フ」と「表現」の分割候補に対して、共起種別「での」
「により」のラベルを付与した状態を示している。
に現れる語構成要素間の共起頻度のデータから図24に
示す共起頻度結果が抽出されたとする。図25には、こ
の抽出結果に基づいて、「現地」と「生産」、「グラ
フ」と「表現」の分割候補に対して、共起種別「での」
「により」のラベルを付与した状態を示している。
【0047】ステップ43:次に、シソーラス17とカテゴ
リ共起辞書18とを参照し、分割候補の各語構成要素間に
可能な共起関係ラベルを付与する。
リ共起辞書18とを参照し、分割候補の各語構成要素間に
可能な共起関係ラベルを付与する。
【0048】図26には、図12のカテゴリ共起辞書と
図11のシソーラスとに基づいて、「父親」と「殺害」
及び「殺し」との間に共起種別「を」「が」のラベルを
付与した状態を示している。これは、「父親」がカテゴ
リ「人間」に属し、「殺害」及び「殺し」がカテゴリ
「殺傷」に属し、カテゴリ共起辞書から「人間」と「殺
傷」との間に「を、が」が成り立つからである。また、
図11のシソーラスを図24に示すコーパスからの共起
頻度結果に適用することも可能であり、それにより、
「車」及び「トラック」と「生産」との間に、共起種別
の「を」のラベルを付与することができる。これは、
「車」と「トラック」が、シソーラスにおいて「自動
車」と同じカテゴリ(「くるま」)に属し、一方、コー
パスから「自動車」と「生産」の間に共起種別の「を」
が成り立つことが分かるからである。
図11のシソーラスとに基づいて、「父親」と「殺害」
及び「殺し」との間に共起種別「を」「が」のラベルを
付与した状態を示している。これは、「父親」がカテゴ
リ「人間」に属し、「殺害」及び「殺し」がカテゴリ
「殺傷」に属し、カテゴリ共起辞書から「人間」と「殺
傷」との間に「を、が」が成り立つからである。また、
図11のシソーラスを図24に示すコーパスからの共起
頻度結果に適用することも可能であり、それにより、
「車」及び「トラック」と「生産」との間に、共起種別
の「を」のラベルを付与することができる。これは、
「車」と「トラック」が、シソーラスにおいて「自動
車」と同じカテゴリ(「くるま」)に属し、一方、コー
パスから「自動車」と「生産」の間に共起種別の「を」
が成り立つことが分かるからである。
【0049】内部構造推定部22は、こうして推定した各
分割候補の内部構造推定結果をパタンマッチ部23に出力
し、 ステップ13:パタンマッチ部23は、各内部構造推定結果
にマッチする語構成パタンを語構成パタンテーブル24か
ら探し、検出した語構成パタンの集合を新語性判定部12
に出力する。
分割候補の内部構造推定結果をパタンマッチ部23に出力
し、 ステップ13:パタンマッチ部23は、各内部構造推定結果
にマッチする語構成パタンを語構成パタンテーブル24か
ら探し、検出した語構成パタンの集合を新語性判定部12
に出力する。
【0050】語構成パタンテーブル24には、図27に示
すように、語構成要素の構文的性質と語構成要素間の関
係とを規定する語構成パタンと、それに対応するパタン
名とが記述されている。例えば、「直接目的語付加」パ
タンでは、左側の語構成要素が「名詞」、右側の語構成
要素が「サ変名詞、他動詞、−和語」であり、左側の語
構成要素と右側の語構成要素との共起関係が「を」であ
ることが指定されている。ここで、「−和語」は和語で
無いことを指定している。また、「直接目的語付加+和
語述語」パタンでは、左側の語構成要素が「名詞」、右
側の語構成要素が「名詞、他動詞、+和語」であり、左
側の語構成要素と右側の語構成要素との共起関係が
「を、が」であることを指定している。この「+和語」
は和語であることを指定している。指定事項以外につい
ては制約を受けない。例えば、各パタンにおいて、左側
の語構成要素に対しては和語に関する指定が無いので、
和語でも和語でなくてもマッチすることになる。
すように、語構成要素の構文的性質と語構成要素間の関
係とを規定する語構成パタンと、それに対応するパタン
名とが記述されている。例えば、「直接目的語付加」パ
タンでは、左側の語構成要素が「名詞」、右側の語構成
要素が「サ変名詞、他動詞、−和語」であり、左側の語
構成要素と右側の語構成要素との共起関係が「を」であ
ることが指定されている。ここで、「−和語」は和語で
無いことを指定している。また、「直接目的語付加+和
語述語」パタンでは、左側の語構成要素が「名詞」、右
側の語構成要素が「名詞、他動詞、+和語」であり、左
側の語構成要素と右側の語構成要素との共起関係が
「を、が」であることを指定している。この「+和語」
は和語であることを指定している。指定事項以外につい
ては制約を受けない。例えば、各パタンにおいて、左側
の語構成要素に対しては和語に関する指定が無いので、
和語でも和語でなくてもマッチすることになる。
【0051】パタンマッチ部23は、図26の各分割候補
の内部構造推定結果に基づくパタンと、図27の語構成
パタンテーブルに記載された各パタンとを照合し、図2
8に示すように、各新語候補に対する可能なパタン名を
得る。ただし、「自動車生産」の2番目の分割候補に対
しては、該当するパタン名が得られない。
の内部構造推定結果に基づくパタンと、図27の語構成
パタンテーブルに記載された各パタンとを照合し、図2
8に示すように、各新語候補に対する可能なパタン名を
得る。ただし、「自動車生産」の2番目の分割候補に対
しては、該当するパタン名が得られない。
【0052】なお、図26の各分割候補のパタンにおい
て、和語指定が無い場合は、「−和語」にもマッチす
る。
て、和語指定が無い場合は、「−和語」にもマッチす
る。
【0053】パタンマッチ部23は、語構成パタンテーブ
ルとの照合結果を、可能な語構成パタン集合として新語
性判定部12に出力する。
ルとの照合結果を、可能な語構成パタン集合として新語
性判定部12に出力する。
【0054】新語性判定部12は、図15に示すパタン新
語性対応テーブル30を保持しており、パタンマッチ部23
から出力された可能な語構成パタン集合をパタン新語性
対応テーブルと照合し、図29に示す新語性判定結果を
出力する。
語性対応テーブル30を保持しており、パタンマッチ部23
から出力された可能な語構成パタン集合をパタン新語性
対応テーブルと照合し、図29に示す新語性判定結果を
出力する。
【0055】なお、「自動車生産」に対する2番目の分
割候補には、当てはまるパタンが無いが、1番目の分割
で直接目的語付加というパタンが得られているので、結
局、新語性は無いものと判断される。
割候補には、当てはまるパタンが無いが、1番目の分割
で直接目的語付加というパタンが得られているので、結
局、新語性は無いものと判断される。
【0056】また、パタンが全く求められていないもの
は、特殊な(予測できない)語として、新語性ありと判
定される。これにより、例えば「自転車操業」のよう
に、コーパスなどのデータから「自転車」と「操業」と
の間に明確な関係が得られないような場合は、新語性あ
りと判定される。
は、特殊な(予測できない)語として、新語性ありと判
定される。これにより、例えば「自転車操業」のよう
に、コーパスなどのデータから「自転車」と「操業」と
の間に明確な関係が得られないような場合は、新語性あ
りと判定される。
【0057】このように、この新語性判定装置では、複
合語における語構成要素の関係を考慮して、新語性を判
定することができる。
合語における語構成要素の関係を考慮して、新語性を判
定することができる。
【0058】なお、図15のテーブルに示す新語性の判
定基準は、一例であって、これに限る訳ではない。この
テーブルの設定を変えることにより、変更した基準で新
語性を判定することが可能である。
定基準は、一例であって、これに限る訳ではない。この
テーブルの設定を変えることにより、変更した基準で新
語性を判定することが可能である。
【0059】
【発明の効果】以上の説明から明らかなように、本発明
の新語性判定装置は、複合語を構成する語構成要素の関
係を考慮して、辞書登録の有用性を備えた新語かどうか
を判定することができる。
の新語性判定装置は、複合語を構成する語構成要素の関
係を考慮して、辞書登録の有用性を備えた新語かどうか
を判定することができる。
【0060】従って、辞書に登録する新語を、検索に貢
献する、必要性の高いものだけに限定することができ、
辞書の容量の拡大を抑え、検索速度の低下を防ぐことが
でき、検索システムを効率化することができる。
献する、必要性の高いものだけに限定することができ、
辞書の容量の拡大を抑え、検索速度の低下を防ぐことが
でき、検索システムを効率化することができる。
【図1】本発明の実施形態における新語性判定装置の構
成を示すブロック図、
成を示すブロック図、
【図2】実施形態の新語性判定装置の語構成パタン判定
部の構成を示すブロック図、
部の構成を示すブロック図、
【図3】実施形態の新語性判定部の構成を示すブロック
図、
図、
【図4】実施形態の新語性判定装置の動作を示すフロー
図、
図、
【図5】実施形態の語構成パタン判定部の動作を示すフ
ロー図、
ロー図、
【図6】実施形態の内部構造判定部の動作を示すフロー
図、
図、
【図7】実施形態の内部構造判定部での語構成要素の素
性の推定動作を示すフロー図、
性の推定動作を示すフロー図、
【図8】実施形態の内部構造判定部での語構成要素間の
共起関係の推定動作を示すフロー図、
共起関係の推定動作を示すフロー図、
【図9】実施形態の語構成要素辞書を示す図、
【図10】実施形態の語構成要素共起辞書を示す図、
【図11】実施形態のシソーラスを示す図、
【図12】実施形態のカテゴリ共起辞書を示す図、
【図13】実施形態の語構成要素種辞書を示す図、
【図14】実施形態のコーパスの文例を示す図、
【図15】実施形態のパタン新語性対応テーブルを示す
図、
図、
【図16】実施形態の入力例を示す図、
【図17】実施形態の語分割例を示す図、
【図18】実施形態の語構成要素辞書参照結果を反映し
た分割候補を示す図、
た分割候補を示す図、
【図19】実施形態のコーパス文例から得られる構文情
報を示す図、
報を示す図、
【図20】実施形態のコーパスから得られた構文情報を
反映した分割候補を示す図、
反映した分割候補を示す図、
【図21】実施形態のシソーラス検索結果を反映した分
割候補を示す図、
割候補を示す図、
【図22】実施形態の語構成要素種辞書検索結果を反映
した分割候補を示す図、
した分割候補を示す図、
【図23】実施形態の語構成要素共起辞書検索結果を反
映した分割候補を示す図、
映した分割候補を示す図、
【図24】実施形態のコーパスからの共起頻度抽出結果
を示す図、
を示す図、
【図25】実施形態のコーパスからの共起関係抽出結果
を反映した分割候補を示す図、
を反映した分割候補を示す図、
【図26】実施形態のシソーラスとカテゴリ共起辞書の
記載を反映した分割候補を示す図、
記載を反映した分割候補を示す図、
【図27】実施形態の語構成パタンテーブルを示す図、
【図28】実施形態のパタン判定結果を示す図、
【図29】実施形態の新語性判定結果を示す図である。
11 語構成パタン判定部 12 新語性判定部 13 語構成要素辞書 14 語構成要素共起辞書 15 コーパス 16 共起頻度取得部 17 シソーラス 18 カテゴリ共起辞書 19 語構成要素種辞書 21 語分割部 22 内部構造推定部 23 パタンマッチ部 24 語構成パタンテーブル 30 パタン新語性対応テーブル
Claims (11)
- 【請求項1】 語を構成し得る文字列に対する構文的性
質を記載した語構成要素辞書と、前記語構成要素辞書を
用いて入力された語の内部構造を解析し、語構成要素間
の関係が、あらかじめ決められた関係のうち、どれに該
当するかを判定する語構成パタン判定手段と、前記語構
成パタン判定手段により判定された語構成パタンに基づ
いて、当該語の新語性を判定する新語性判定手段を備え
た新語性判定装置。 - 【請求項2】 特定の語構成要素の間の特定の構文的関
係の構成し易さを記載した語構成要素共起辞書をさらに
備え、前記語構成パタン判定手段が、同語構成要素共起
辞書を参照して、語構成パタンを決定することを特徴と
する請求項1に記載の新語性判定装置。 - 【請求項3】 文書データを格納したコーパスを備え、
前記コーパス中で、特定の語構成要素の組が特定の構文
的関係を構成する頻度を求める共起頻度取得手段をさら
に備え、前記語構成パタン判定手段が、前記共起頻度取
得手段による取得結果を参照して、語構成パタンを判定
することを特徴とする請求項1に記載の新語性判定装
置。 - 【請求項4】 特定の語構成要素の特定の意味カテゴリ
への帰属度を記載したシソーラス、及び、特定の二つの
意味カテゴリに対して、それぞれのカテゴリに属する平
均的な語構成要素の間の特定の意味的関係の成り立ち易
さに関する情報を格納したカテゴリ共起辞書を備え、前
記語構成パタン判定手段が、前記シソーラス及びカテゴ
リ共起辞書を参照して、語構成パタンを判定することを
特徴とする請求項1に記載の新語性判定装置。 - 【請求項5】 語構成要素が漢語であるか和語であるか
の語構成要素種情報を記述した語構成要素種辞書を備
え、前記語構成パタン判定手段が、前記語構成要素種情
報も参照して、語構成パタンを判定することを特徴とす
る請求項1に記載の新語性判定装置。 - 【請求項6】 入力された語の文字列を語構成要素に分
割し、各語構成要素の構文情報と各語構成要素間の共起
関係とを解析して、前記語の語構成パタンを判定し、こ
の語構成パタンをあらかじめ決められた語構成パタンと
比較して、当該語の新語性を判定することを特徴とする
新語性判定方法。 - 【請求項7】 前記各語構成要素の構文情報の解析に、
語を構成し得る文字列に対する構文的性質を記載した語
構成要素辞書を用いることを特徴とする請求項6に記載
の新語性判定方法。 - 【請求項8】 前記各語構成要素間の共起関係の解析
に、特定の語構成要素の間の特定の構文的関係の構成し
易さを記載した語構成要素共起辞書を用いることを特徴
とする請求項6に記載の新語性判定方法。 - 【請求項9】 文書データから、特定の語構成要素の組
が特定の構文的関係を構成する頻度を求め、得られた結
果を、前記各語構成要素間の共起関係の解析に用いるこ
とを特徴とする請求項6に記載の新語性判定方法。 - 【請求項10】 前記各語構成要素間の共起関係の解析
に、特定の語構成要素の特定の意味カテゴリへの帰属度
を記載したシソーラスと、特定の二つの意味カテゴリに
対して、それぞれのカテゴリに属する平均的な語構成要
素の間の特定の意味的関係の成り立ち易さに関する情報
を格納したカテゴリ共起辞書とを用いることを特徴とす
る請求項6に記載の新語性判定方法。 - 【請求項11】 前記各語構成要素の構文情報の解析
に、語構成要素が漢語であるか和語であるかの語構成要
素種情報を記述した語構成要素種辞書を用いることを特
徴とする請求項6に記載の新語性判定方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP24216399A JP2001067354A (ja) | 1999-08-27 | 1999-08-27 | 新語性判定装置及び新語性判定方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP24216399A JP2001067354A (ja) | 1999-08-27 | 1999-08-27 | 新語性判定装置及び新語性判定方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2001067354A true JP2001067354A (ja) | 2001-03-16 |
Family
ID=17085279
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP24216399A Pending JP2001067354A (ja) | 1999-08-27 | 1999-08-27 | 新語性判定装置及び新語性判定方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2001067354A (ja) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100560168B1 (ko) * | 2003-12-24 | 2006-03-13 | 한국전자통신연구원 | 어휘 및 의미 공기패턴에 기반한 한국어 구조분석 시스템및 그 방법 |
JP2011008615A (ja) * | 2009-06-26 | 2011-01-13 | Toshiba Corp | 対訳登録システム及びプログラム |
JP2016009415A (ja) * | 2014-06-26 | 2016-01-18 | 日本電気株式会社 | 用語集作成支援システムおよび方法、プログラム |
CN111209746A (zh) * | 2019-12-30 | 2020-05-29 | 航天信息股份有限公司 | 自然语言处理方法、装置、存储介质及电子设备 |
CN111427977A (zh) * | 2019-01-10 | 2020-07-17 | 阿里巴巴集团控股有限公司 | 电子眼数据的处理方法及装置 |
-
1999
- 1999-08-27 JP JP24216399A patent/JP2001067354A/ja active Pending
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100560168B1 (ko) * | 2003-12-24 | 2006-03-13 | 한국전자통신연구원 | 어휘 및 의미 공기패턴에 기반한 한국어 구조분석 시스템및 그 방법 |
JP2011008615A (ja) * | 2009-06-26 | 2011-01-13 | Toshiba Corp | 対訳登録システム及びプログラム |
JP2016009415A (ja) * | 2014-06-26 | 2016-01-18 | 日本電気株式会社 | 用語集作成支援システムおよび方法、プログラム |
CN111427977A (zh) * | 2019-01-10 | 2020-07-17 | 阿里巴巴集团控股有限公司 | 电子眼数据的处理方法及装置 |
CN111427977B (zh) * | 2019-01-10 | 2023-12-19 | 阿里巴巴集团控股有限公司 | 电子眼数据的处理方法及装置 |
CN111209746A (zh) * | 2019-12-30 | 2020-05-29 | 航天信息股份有限公司 | 自然语言处理方法、装置、存储介质及电子设备 |
CN111209746B (zh) * | 2019-12-30 | 2024-01-30 | 航天信息股份有限公司 | 自然语言处理方法、装置、存储介质及电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US5029084A (en) | Japanese language sentence dividing method and apparatus | |
Wacholder et al. | Disambiguation of proper names in text | |
TWI512507B (zh) | A method and apparatus for providing multi-granularity word segmentation results | |
WO2009017464A9 (en) | Relation extraction system | |
EP1391830A1 (fr) | Système d'extraction d'informations dans un texte en langage naturel | |
CN114579693B (zh) | 一种nlp文本安全审核多级检索系统 | |
CN113886527A (zh) | 一种自然语言语义提取方法和系统 | |
WO2014002774A1 (ja) | 同義語抽出システム、方法および記録媒体 | |
JP4115048B2 (ja) | 文書検索システム | |
JPH10254883A (ja) | 文書自動分類方法 | |
CN102722526B (zh) | 基于词性分类统计的重复网页和近似网页的识别方法 | |
JP2001067354A (ja) | 新語性判定装置及び新語性判定方法 | |
Sorrentino et al. | Schema normalization for improving schema matching | |
KR20030039575A (ko) | 문서 요약 방법 및 시스템 | |
Panchapagesan et al. | Hindi text normalization | |
JP4185399B2 (ja) | 顧客データ管理装置、顧客データ管理方法および顧客データ管理用プログラムならびに顧客データ管理用プログラムを格納した記録媒体 | |
CN106547877A (zh) | 基于6w业务逻辑模型的数据元智能标识解析方法 | |
JP5025960B2 (ja) | 辞書作成装置 | |
JP2003303194A (ja) | 慣用句辞書作成装置、検索用インデックス作成装置、文書検索装置、それらの方法、プログラム及び記録媒体 | |
Belz | Optimisation of corpus-derived probabilistic grammars | |
RU2777693C1 (ru) | Способ автоматизированного извлечения смысловых компонент из сложносочинённых предложений естественно-язычных текстов в системах машинного перевода и устройство для его реализации | |
JP2004258759A (ja) | テキスト解析装置、方法及びプログラム | |
JP4468608B2 (ja) | 意味情報推定装置、意味情報推定方法、及びプログラム | |
JP3698454B2 (ja) | 並列句解析装置および学習データ自動作成装置 | |
JPH09237277A (ja) | 複合名詞解析方法 |