JP5254888B2 - 言語資源情報生成装置、方法、プログラム、および記録媒体 - Google Patents
言語資源情報生成装置、方法、プログラム、および記録媒体 Download PDFInfo
- Publication number
- JP5254888B2 JP5254888B2 JP2009136699A JP2009136699A JP5254888B2 JP 5254888 B2 JP5254888 B2 JP 5254888B2 JP 2009136699 A JP2009136699 A JP 2009136699A JP 2009136699 A JP2009136699 A JP 2009136699A JP 5254888 B2 JP5254888 B2 JP 5254888B2
- Authority
- JP
- Japan
- Prior art keywords
- target word
- semantic
- semantic class
- class
- thesaurus
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Machine Translation (AREA)
Description
したがって、このような言語資源に追加すべき全ての対象語について、見出語とその意味クラスとの対応関係を示す言語資源情報を、常時、人手で収集し続けることは困難であるため、なるべく人手を介さず自動的に、あるいは半自動的に言語資源情報を生成することが望まれる。
そこで、Web上の辞書などを利用して、対象語に関する言語資源情報の生成を行おうという試みがなされている。
非特許文献1では、Web辞書を利用して、単語間の関連度が強いかどうか、という関係付けをしたものをシソーラスと呼んでいる。また、非特許文献2では、Web辞書を構成する記事(コーパス)内のリスト構造などを利用して、リストアップされている語の固有表現クラスを推定している。
また、本発明にかかる記録媒体は、上記プログラムが記録された記録媒体である。
したがって、本実施の形態によれば、数千の意味クラスを持つ既存シソーラスに対しても、極めて正確に対象語をマッピングすることができ、Web上の文書などの電子化文書に基づいて、高い品質精度の言語資源情報を生成することが可能となる。
[第1の実施の形態]
まず、図1を参照して、本発明の第1の実施の形態にかかる言語資源情報生成装置について説明する。図1は、本発明の第1の実施の形態にかかる言語資源情報生成装置の構成を示すブロック図である。
この言語資源情報生成装置100は、全体としてサーバーやパーソナルコンピュータなどの情報処理装置からなり、自然言語データからなる入力データXから、新語、造語、流行語、外来語などの対象語を選択し、当該対象語に対して意味クラスを付与することにより、言語資源情報生成を生成する機能を有している。
演算処理部1で実現される主な処理部としては、対象語獲得部11、特徴量抽出部12、意味クラス選択部14、意味クラス細分化部16がある。
辞書21には、言語資源情報による更新対象となる、1つ以上の単語辞書が格納されている。これら単語辞書には、少なくとも語とこの語の意味に対応する概念を表す意味クラスを含む言語資源情報が複数記述されている。
シソーラス22には、1つ以上のシソーラスやオントロジーが格納されており、これらシソーラスやオントロジーには、少なくとも単語や意味クラス間の関係が記述されている。但し、これら辞書21とシソーラス22は一体化して構成してもよい。
意味クラス制限情報DB23Bは、対象語に関する特徴量に基づいて、対象語に対して付与する意味クラスの種類を制限するためのルールや重みなどの意味クラス制限条件を記憶するデータベースである。
意味クラス推定情報DB23Cは、対象語に関する特徴量に基づいて、対象語に対して意味クラスを付与するためのルールや重みなどの意味クラス推定条件を記憶するデータベースである。
通信1/F部4は、専用のデータ入出力回路からなり、LANなどの通信回線を介して接続されたサーバーなどの外部装置との間で、演算処理部1からの指示に応じて、入力データX、言語資源情報Y、辞書、データベースなどの各種データやプログラム24を入出力する機能を有している。
画面表示部6は、LDCやPCPなどの画面表示装置からなり、演算処理部1からの指示に応じて入力データXや言語資源情報Yなどの各種データや操作画面を画面表示する機能を有している。
対象語獲得部11は、Web辞書などから獲得した入力データXを、記憶部2、入出力1/F部3、通信1/F部4、操作入力部5などから受け取って、既存の辞書21に登録すべき対象語を獲得する機能を有している。
特徴量抽出部12は、対象語獲得部11で獲得した対象語の意味内容を示す文字情報からなる特徴量(特徴情報)を入力データXから抽出する機能を有している。
次に、図2を参照して、本発明の第1の実施の形態にかかる言語資源情報生成装置100の動作について説明する。ここでは、処理対象となる自然言語を日本語とする。但し、対象自然言語については、英語、中国語、スペイン語、ドイツ語、フランス語など、日本語以外の言語でもよい。
記憶部2の辞書21は、見出語ごとにその意味クラスが記述された辞書からなり、例えば対象自然言語を日本語とすると、日本語語彙大系(池原悟,宮崎雅弘,白井諭,横尾昭男,中岩浩巳,小倉健太郎,大山芳史,and 林良彦. 日本語語彙大系. 岩波書店, 1997.)の日本語辞書、EDR日本語単語辞書(情報通信機構. EDR電子化辞書 日本語単語辞書(改訂版), 2007.)、分類語彙表(国立国語研究所. 分類語彙表CD-ROM(増補改訂版). 大日本図書,2004.)などの既存の辞書が存在する。
記憶部2のシソーラス22には、対象自然言語のシソーラスとして、辞書21に格納された辞書の意味クラス同士の意味関係が記述されている。シソーラス22は、対象自然言語を日本語とすると、例えば、辞書21に対応するシソーラスとしては、前述した日本語語彙大系、EDR概念辞書、分類語彙表のほか、檜オントロジー(Francis Bond, Eric Nichols, Sanae Fujita, and Takaaki Tanaka. Acquiring an ontology for a fundamental vocabulary. In Proceedings of the 20th International Conference on Computational Linguistics: COLING-2004, pages 1319-1325, Geneva, 2004.)などの既存のシソーラスが存在する。
入力データXは、対象自然言語を日本語とすると、例えば、「○○とは、××である。」「○○は、××のことである。」「○○は、××の一種である。」「○○(××のこと)」のような、少なくとも、語とその定義を示す内容を含んでいる。
図5では、入力データXを区別するために、便宜的にIDを付与しているが、IDは必ずしも必要ではない。また、ここではIDとして数字を利用しているが、必ずしも数字のみである必要はなく、文字や文字と数字の混合やアルファベット、記号など、数字以外の文字情報を用いてもよい。
ここでは、入力データXから対象語を獲得するための対象語獲得条件が、文型を検索する文型検索パターンと当該文型の所定文字位置から得られる見出語および当該見出語に関する定義とからなるルールで構成されており、対象語獲得情報DB23Aに格納されている。
例えば、「○○とは、××である。」という文型については、○○部分の文字が見出語に相当し、××部分の文字が見出語に関する定義に相当することが規定されている。
ここで、○○の部分に(△△)が含まれ、△△が平仮名やカタカナなら読み、英語なら英訳、それ以外なら正式名称や別名、□□:××という形式なら、××は□□で指定されたもの、のようにルールを付加し、より多くの情報を獲得することもできる。
前述した図6に示したような対象語獲得条件を適用した場合、図5の入力データから図7のような対象語が獲得できる。例えば、図5の最初の例であれば、入力データXが、「ダルビッシュ有(だるびっしゅゆう、正式氏名:ダルビッシュセファット・ファリード・有)は、北海道日本ハムファイターズに所属するプロ野球選手(投手)である。」という自然言語データ(テキストデータ)となる。この場合、対象語獲得部11は、入力データXを受け取って、例えば図6の最初のルールに基づき、見出語「ダルビッシュ有」を対象語として獲得する。
チャンカーについては、対象自然言語を日本語とすると、例えば、YamCha(http://chasen.org/taku/software/yamcha/)などがある。
構文解析器については、対象自然言語を日本語とすると、例えば、KNP(http://nlp.kuee.kyoto-u.ac.jp/nl-resource/knp.html)や、CaboCha(http://chasen.org/taku/software/cabocha/)などがある。
入力データXが、Web辞書や電子化辞書のように辞書形式の場合、一般的には、予め多くの見出語が登録されている。図8のように、入力データXの見出語に(△△)が含まれる場合、分野や詳細化情報などを示すルールを生成し、対象語獲得条件として用いることもできる。
図9の場合、「北海道日本ハムファイターズ」や「週間少年サンデー」など、リンクに利用された語を対象語として捉えることができる。このような場合、これらの語を対象語として扱うことになる。
前述した図8と同様、図10においてアンダーラインで示している部分は、辞書中の他の見出語や、他のWebページ、同一ページ中の他の部分等へリンクされていることを示している。図11,12では、図10の情報以外にも、筆者(情報発信者)によって利用されたテンプレートと、付与されたカテゴリ情報や分類情報を入力データXとして含んでいる。このようなカテゴリ情報や分類情報を、以下ではWebカテゴリと呼ぶ。
定義文や説明文などがない場合でも、図13のように、見出語とWebカテゴリのみを入力データXとして利用することもできる。また、図14のように、見出語とテンプレートのみを入力データXとして利用することもできる。また、図15のように、各テンプレートに対し、そのテンプレートを利用している見出語をリストアップしたものを入力データXとして利用することもできる。
次に、演算処理部1の特徴量抽出部12における特徴量抽出処理について説明する。
特徴量抽出部12は、入力データXを受け取り、各対象語に対する特徴量を抽出する。特徴量としては、上位語、定義文、あるいは説明文に含まれるリンク情報、内容語、Webカテゴリ、テンプレートなどがあげられる。さらに、各上位語やリンク情報、内容語等が既知語の場合、これら既知語に付与された意味カテゴリや品詞情報のような様々な情報を、特徴量として抽出することが考えられる。
前述した図8のような定義文から、図16に示すような上位語が抽出される。この場合、形態素単位から、名詞句のような比較的長い単位まで、様々な長さで検索することにより、入力データに含まれている各語を上位語として抽出している。なお、定義文からの上位語の抽出方法については、既知の方法を用いればよい(例えば、文献:Eric Nichols, Francis Bond, Takaaki Tanaka, Sanae Fujita, and Daniel Flickinger. Robust Ontology Acquisition from Multiple Sources. In Proceedings of COLING-2006 2nd Workshop on Ontology Learning and Population: Bridging the Gap between Text and Knowledge, pages 10-17, Sydney, 2006.や、文献:鶴丸弘昭,竹下克典,伊丹克企,柳川俊英, and 吉田将. 国語辞典情報を用いたシソーラスの作成について. In 情報処理学会自然言語処理研究会, volume83-16, pages l21-128, 1991.など参照)。
前述した図11,12において、定義文および説明文中でリンクを示している語を抜き出した場合、図17に示すような特徴量が抽出される。また、前述した図9は、図8において、定義文中でリンクを示している語を抜き出したものである。こうしたリンク情報を特徴量として利用することも考えられる。
特徴量として、図18に示すように、定義文や説明文などに出現する内容語を利用してもよい。但し、図18では、基本形のみだが、出現形や品詞情報、これらの組み合わせなども抽出してもよい。また、図13,14に示したような情報を特徴量として利用してもよい。図9,17,18,13,14に示したような情報は、特徴量としてそのまま利用してもよい。また、同じような情報源から抽出した特徴量であっても、定義文中のリンクと説明文中のリンクのように、異なる特徴量として扱ってもよい。
図19および図20は、特徴量の抽出リスト例である。
次に、演算処理部1の意味クラス制限部13における意味クラス制限処理について説明する。
意味クラス制限部13は、意味クラス制限情報DB23Bに登録されている意味クラス制限条件を参照して、対象語に 関する特徴量に基づいて、シソーラス22に記述されている意味クラスのうち、対象語に付与する意味クラスの種類を制限する。
ここでは、シソーラス22に基づく意味クラスとして、人(P)、組織(0)、物(N)、場所(L)、その他(S)という大分類が存在するものとし、入力データの分類(タイプ)と、対象語の特徴量に対する文字列比較条件と、この文字列比較条件が成立した際に付与される大分類との組から、意味クラス制限条件が構成されている。この大分類が、各対象語に付与候補となる意味クラスの範囲を制限する意味制限情報となる。
図21の意味クラス制限条件と対象語の特徴量とを用いれば、図22に示すような意味制限が対象語ごとに獲得できる。このような意味制限を獲得することができれば、「大富豪」がその他(S)であること、言い替えれば、人物(P)ではないことがわかるため、人(P)(〈178:富者〉を含む)、組織(0)、物(N)、場所(L)の配下の意味クラスについては、意味クラスの選択候補から予め除外しておくことができる。こうした意味クラスの制限は、特に、多義語に対する意味クラス推定の精度向上に対して有効である。また、多くの候補を予め絞ることができるため、計算量の削減になる。
意味クラス選択部14で用いる意味クラス制限条件では、図22のような大分類を識別するための識別コードを用いて記述してもよいが、図23に示すように、付与可能な意味クラスを記述してもよい。また、図22や図23のような意味制限を組み合わせてもよく、Webカテゴリだけでなく、様々な条件からルールを作成することが考えられる。
このように、意味クラス選択部14は、意味クラス制限部13を有し、意味クラス制限情報DB23Bを利用することで、対象語に対して、より最適な意味クラスを付与できる。但し、意味クラスの絞り込みは、後処理で行うことも考えられる。
次に、演算処理部1の意味クラス選択部14における意味クラス選択処理について説明する。
意味クラス選択部14は、意味クラス推定情報DB23Cに登録されている意味クラス推定条件を参照し、対象語に関する特徴量に基づいて、シソーラス22に記述されている各意味クラスのうち、意味クラス制限部13で付与した大分類に属する個々の意味クラスについて評価値を計算し、その評価値が最大になる意味クラスを対象語の意味クラスとして選択する。
ここでは、既存の辞書21に登録されている既知語の上位語と、既知語に付与されている意味クラスと、これら上位語と意味クラスとの関連度を示すスコア(評価値)、および当該上位語が持つ既知語の数との組から、意味クラス推定条件が構成されている。
例えば、「選手」という上位語を持つ既知語には〈48:男〉が付与されることが最も多い。「選手」という上位語を持つ語に〈48:男〉が付与される確率を示すスコアは、735849という値になっている。同様に、様々な特徴量に対し、意味クラスとの関連をスコア化し、意味クラス推定条件として意味クラス推定情報DB23Cへ登録しておくことができる。
機械学習手法としては、例えば、CRF(Conditional Random Fields:Jun Suzuki, Erik McDermott, and Hideki Isozaki. Training conditional random fields with multivariate evaluation measures. In Proceedings of the 21st International Conference on Computational Linguistics and 44th Annual Meeting of the Association for Computational Linguistics, pages 217-224, Sydney, Australia, July 2006. Association for Computational Linguistics.)や、ME(Maximam entropy:Robert Malouf.」 A comparison of algorithms for maximum entropy parameter estimation. In Proceedings of the 6th Conference on Computational Natural Language Learning: CoNLL-2002, Taipei, Taiwan, 2002.:http://tadm.sourceforge.net)、SVM(SupPort Vector Machine:Vladimir Naumovich Vapnik. Statistical Learning Theory (Adaptive and Learning Systems for Signal Processing, Communications, and Control). John Wiley & Sons, 1998.)などがある。
意味クラス推定情報DB23Cと特徴量抽出部12で抽出された特徴量を元にして、対象語に付与した意味クラスごとにスコアを計算できる。なお、図25のうち、アンダーライン部分は、意味クラス制限部13によって予め除外される意味クラスであるが、ここでは便宜的に提示している。
ここでは、各意味クラスのうち、スコアが高いほど、当該対象語の意味クラスとして相応しいと仮定し、ある一定以上のスコアを有する意味クラスのみを、対象語に対する意味クラスとして選択したものである。図26の場合、閾値をスコア10とし、10以下の意味クラスは除外している。
また、意味クラスの推定と同様に、同じ上位語などの特徴量を持つ既知語から、対象語の品詞などを推定することもできる。前述した図26には、意味クラスと同時に品詞も表示している。
ここでは、入力データXから対象語として獲得した見出語ごとに、意味クラスと品詞が推定され、言語資源情報として付与されている。前述した図3の既存辞書に登録されている情報と比較すると、図27のアンダーライン部分における、見出語「メジャー」とその意味クラス〈985:計器(度量衡)〉の組み合わせは、既存辞書に存在することがわかる。
こうして生成した言語資源情報(意味クラス付き)Yは、言語資源情報出力部15により、辞書21に登録される。
このように、本実施の形態は、特徴量抽出部12により、入力データXから当該対象語の意味内容を示す文字情報を特徴量として抽出し、意味クラス制限部13により、意味クラス制限情報DB23Bに登録されている意味クラス制限条件を参照し、対象語の特徴量に基づいて当該対象語が持つ意味の大分類を特定することにより、シソーラスに記述されている各意味クラスのうちから当該対象語に対して付与する意味クラスの種類を制限し、意味クラス選択部14により、意味クラス推定条件DB2Cに登録されている意味クラス推定条件を参照して、大分類に含まれる意味クラスごとに、対象語の特徴量に基づいて当該意味クラスと当該対象語との関係度合いを示す評価値を算出し、これら評価値に基づいて当該対象語との関係度合いが大きい意味クラスを、当該対象語に付与する意味クラスとして選択している。
例えば、「大富豪とは、トランプを使ったゲームの一つである。」という入力データから、対象語である「大富豪」という単語の意味クラスを推定する場合、「大富豪」に対して、〈178:富者〉および〈1679:ゲーム〉という意味クラスが候補として選択されうる。このとき、この場合の「大富豪」が人ではないということが認識されていれば、〈178:富者〉ではなく〈1679:ゲーム〉という正しい意味クラスを選択することができる。また、〈178:富者〉という意味の「大富豪」が既存の辞書やシソーラスに存在している場合でも、〈1679:ゲーム〉の意味の「大富豪」として、新たに登録することができる。
次に、図28を参照して、本発明の第2の実施の形態にかかる言語資源情報生成装置100について説明する。図28は、本発明の第2の実施の形態にかかる言語資源情報生成装置の要部を示すブロック図であり、前述した図2と同じまたは同等部分には、同一符号を付してある。
整合性調整部14Aは、既存の辞書やシソーラスに基づいて、対象語に付与した意味クラスを、既存の辞書やシソーラスとコンセンサスが取れるよう修正、追加、削除等の調整を行う機能を有している。この他の構成および動作については、第1の実施の形態と同様であり、ここでの詳細な説明は省略する。
次に、図28を参照して、本発明の第2の実施の形態にかかる言語資源情報生成装置100の動作について具体的に説明する。
意味クラス選択部14は、対象語に対して意味クラスを付与した後、整合性調整部14Aにより、既存の辞書21やシソーラス22とコンセンサスが取れるよう、対象語の意味クラスについて修正、追加、削除等の調整を行う。
意味クラス共起情報は、ある語に意味クラス(1)が付与されている場合に、意味クラス(2)も付与されている共起確率を示す情報であり、処理情報DB23の意味クラス共起情報DB23Dに登録されている。
整合性調整部14Aは、意味クラス共起情報DB23Dを参照して、意味クラス選択部14により付与された既付与意味クラスごとに、他の意味クラスとの共起確率を意味クラス共起情報DB23Dから取得し、これら共起確率を予め設定されている閾値と比較し、意味クラスの追加要否を判定する。ここで、閾値以上の高い共起確率を持つ他の意味クラスがあれば、この意味クラスも当該対象語の意味クラスとして追加付与する。
このように、本実施の形態では、意味クラス選択部14に整合性調整部14Aを設け、既存の辞書21やシソーラス22から得た意味クラスの共起情報に基づいて、対象語の意味クラスについて修正、追加、削除等の調整を行うようにしたので、より高い精度で、既存の辞書21やシソーラス22とコンセンサスを取ることが可能となる。
次に、図30を参照して、本発明の第3の実施の形態にかかる言語資源情報生成装置100について説明する。図30は、本発明の第3の実施の形態にかかる言語資源情報生成装置の要部を示すブロック図であり、前述した図2および図28と同じまたは同等部分には、同一符号を付してある。
意味クラス細分化部16は、対象語に付与された意味クラスおよび特徴量に基づき、対象語ごとに当該対象語の上位語を階層的に抽出する機能と、これら対象語の上位語に関する階層構造に基づきシソーラス22の意味クラスを細分化する機能を有している。この他の構成および動作については、第1の実施の形態と同様であり、ここでの詳細な説明は省略する。
次に、図30を参照して、本発明の第3の実施の形態にかかる言語資源情報生成装置100の動作について具体的に説明する。図30は、本発明の第3の実施の形態にかかる言語資源情報生成装置の要部を示すブロック図である。
意味クラス選択部14により、対象語に対して意味クラスが付与された後、意味クラス細分化部16は、対象語に付与された意味クラスおよび特徴量に基づいて、各対象語の上位語を階層的に抽出する。上位語の抽出方法については、前述した図16で説明した既知の方法を用いればよい。
この際、意味クラス選択部14において、既存シソーラス22より詳細な意味クラスを獲得しておき、これら意味クラスを既存シソーラス22に付与するようにしてもよい。
前述した図16によれば、ID:165396「ダルビッシュ有」と、ID:220888「伊達公子」、ID:2953「三浦知良」は、「選手」という共通の上位語1を持つことがわかる。したがって、上位語2および上位語3が、上位語「選手」に関する細分化上位語として選択される。
これにより、共通の上位語1の「選手」をキーとし、既存のシソーラス22における意味クラス〈360:選手〉の配下に、上位語2や上位語3に対応する意味クラスを新たに付与することにより、図31のように、既存のシソーラスの意味クラスの細分化および拡張が行われる。
図32のように、既シソーラスにおける意味クラスの情報と、細分化された意味クラスの情報を両方保存しておくことで、既シソーラスで定義されている意味クラスのみを利用したい場合にも対応できる。また、既シソーラスより詳細な意味クラスを利用したい場合には、細分化した方の情報を利用することができる。また、既シソーラスを拡張するので、既シソーラスを利用したシステムやアプリケーションに容易に適用できる。
このように、本実施の形態では、演算処理部1に、意味クラス細分化部16を設け、対象語に付与された意味クラスおよび特徴量に基づき、対象語ごとに当該対象語の上位語を階層的に抽出し、これら対象語の上位語に関する階層構造に基づきシソーラス22の意味クラスを細分化するようにしたので、より詳細な分類が必要とされる場合や、時代の変化と共に新たに創出された意味クラスに対応することができる。
以上、実施形態を参照して本発明を説明したが、本発明は上記実施形態に限定されるものではない。本発明の構成や詳細には、本発明のスコープ内で当業者が理解しうる様々な変更をすることができる。
Claims (6)
- 自然言語からなる入力データに含まれる対象語に対して、シソーラスに記述されている意味クラスのうちから、当該対象語の意味分類を示す意味クラスを選択して付与することにより、当該対象語に関する言語資源情報を生成する言語資源情報生成装置であって、
前記入力データから当該対象語の意味内容を示す文字情報を特徴量として抽出する特徴量抽出部と、
意味クラス制限情報データベースに登録されている意味クラス制限条件を参照し、前記対象語の特徴量に基づいて当該対象語が持つ意味の大分類を特定することにより、前記シソーラスに記述されている各意味クラスのうちから当該対象語に対して付与する意味クラスの種類を制限する意味クラス制限部と、
意味クラス推定情報データベースに登録されている意味クラス推定条件を参照し、前記対象語の大分類と対応する意味クラスごとに、当該対象語の特徴量に基づいて当該意味クラスと当該対象語との関係度合いを示す評価値をそれぞれ算出し、これら評価値に基づいて当該対象語との関係度合いが最も大きい意味クラスを、当該対象語に付与する意味クラスとして選択する意味クラス選択部と、
意味クラス共起情報データベースに登録されている、前記シソーラスに記述されている各意味クラス間の共起確率を参照して、前記意味クラス選択部で選択された前記意味クラスと他の意味クラスとの間の共起確率を取得し、閾値以上の共起確率を持つ他の意味クラスを当該対象語の意味クラスとして追加する整合性調整部と
を備えることを特徴とする言語資源情報生成装置。 - 自然言語からなる入力データに含まれる対象語に対して、シソーラスに記述されている意味クラスのうちから、当該対象語の意味分類を示す意味クラスを選択して付与することにより、当該対象語に関する言語資源情報を生成する言語資源情報生成装置であって、
前記入力データから当該対象語の意味内容を示す文字情報を特徴量として抽出する特徴量抽出部と、
意味クラス制限情報データベースに登録されている意味クラス制限条件を参照し、前記対象語の特徴量に基づいて当該対象語が持つ意味の大分類を特定することにより、前記シソーラスに記述されている各意味クラスのうちから当該対象語に対して付与する意味クラスの種類を制限する意味クラス制限部と、
意味クラス推定情報データベースに登録されている意味クラス推定条件を参照し、前記対象語の大分類と対応する意味クラスごとに、当該対象語の特徴量に基づいて当該意味クラスと当該対象語との関係度合いを示す評価値をそれぞれ算出し、これら評価値に基づいて当該対象語との関係度合いが最も大きい意味クラスを、当該対象語に付与する意味クラスとして選択する意味クラス選択部と、
対象語に付与された意味クラスおよび特徴量に基づき、対象語ごとに当該対象語の上位語を階層的に抽出し、これら対象語の上位語に関する階層構造に基づき前記シソーラスの意味クラスを細分化する意味クラス細分化部と
を備えることを特徴とする言語資源情報生成装置。 - 自然言語からなる入力データに含まれる対象語に対して、シソーラスに記述されている意味クラスのうちから、当該対象語の意味分類を示す意味クラスを選択して付与することにより、当該対象語に関する言語資源情報を生成する言語資源情報生成装置で用いられる言語資源情報生成方法であって、
特徴量抽出部が、前記入力データから当該対象語の意味内容を示す文字情報を特徴量として抽出する特徴量抽出ステップと、
意味クラス制限部が、意味クラス制限情報データベースに登録されている意味クラス制限条件を参照し、前記対象語の特徴量に基づいて当該対象語が持つ意味の大分類を特定することにより、前記シソーラスに記述されている各意味クラスのうちから当該対象語に対して付与する意味クラスの種類を制限する意味クラス制限ステップと、
意味クラス選択部が、意味クラス推定情報データベースに登録されている意味クラス推定条件を参照し、前記対象語の大分類と対応する意味クラスごとに、当該対象語の特徴量に基づいて当該意味クラスと当該対象語との関係度合いを示す評価値をそれぞれ算出し、これら評価値に基づいて当該対象語との関係度合いが最も大きい意味クラスを、当該対象語に付与する意味クラスとして選択する意味クラス選択ステップと、
整合性調整部が、意味クラス共起情報データベースに登録されている、前記シソーラスに記述されている各意味クラス間の共起確率を参照して、前記意味クラス選択部で選択された前記意味クラスと他の意味クラスとの間の共起確率を取得し、閾値以上の共起確率を持つ他の意味クラスを当該対象語の意味クラスとして追加する整合性調整ステップと
を備えることを特徴とする言語資源情報生成方法。 - 自然言語からなる入力データに含まれる対象語に対して、シソーラスに記述されている意味クラスのうちから、当該対象語の意味分類を示す意味クラスを選択して付与することにより、当該対象語に関する言語資源情報を生成する言語資源情報生成装置で用いられる言語資源情報生成方法であって、
特徴量抽出部が、前記入力データから当該対象語の意味内容を示す文字情報を特徴量として抽出する特徴量抽出ステップと、
意味クラス制限部が、意味クラス制限情報データベースに登録されている意味クラス制限条件を参照し、前記対象語の特徴量に基づいて当該対象語が持つ意味の大分類を特定することにより、前記シソーラスに記述されている各意味クラスのうちから当該対象語に対して付与する意味クラスの種類を制限する意味クラス制限ステップと、
意味クラス選択部が、意味クラス推定情報データベースに登録されている意味クラス推定条件を参照し、前記対象語の大分類と対応する意味クラスごとに、当該対象語の特徴量に基づいて当該意味クラスと当該対象語との関係度合いを示す評価値をそれぞれ算出し、これら評価値に基づいて当該対象語との関係度合いが最も大きい意味クラスを、当該対象語に付与する意味クラスとして選択する意味クラス選択ステップと、
意味クラス細分化部が、対象語に付与された意味クラスおよび特徴量に基づき、対象語ごとに当該対象語の上位語を階層的に抽出し、これら対象語の上位語に関する階層構造に基づき前記シソーラスの意味クラスを細分化する意味クラス細分化ステップと
を備えることを特徴とする言語資源情報生成方法。 - コンピュータに、請求項3または請求項4に記載の言語資源情報生成方法の各ステップを実行させるためのプログラム。
- 請求項5に記載のプログラムが記録された記録媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009136699A JP5254888B2 (ja) | 2009-06-05 | 2009-06-05 | 言語資源情報生成装置、方法、プログラム、および記録媒体 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009136699A JP5254888B2 (ja) | 2009-06-05 | 2009-06-05 | 言語資源情報生成装置、方法、プログラム、および記録媒体 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2010282517A JP2010282517A (ja) | 2010-12-16 |
JP5254888B2 true JP5254888B2 (ja) | 2013-08-07 |
Family
ID=43539171
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009136699A Expired - Fee Related JP5254888B2 (ja) | 2009-06-05 | 2009-06-05 | 言語資源情報生成装置、方法、プログラム、および記録媒体 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5254888B2 (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3683694A4 (en) * | 2017-10-26 | 2020-08-12 | Mitsubishi Electric Corporation | DEVICE AND METHOD FOR DEDUCTING A SEMANTIC RELATIONSHIP BETWEEN WORDS |
CN116760942B (zh) * | 2023-08-22 | 2023-11-03 | 云视图研智能数字技术(深圳)有限公司 | 一种全息互动远程会议方法及系统 |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3442422B2 (ja) * | 1993-03-15 | 2003-09-02 | 株式会社東芝 | 同義語情報作成装置および方法 |
JPH07121536A (ja) * | 1993-10-21 | 1995-05-12 | Nippon Telegr & Teleph Corp <Ntt> | 辞書未登録語属性推定装置 |
JP3663878B2 (ja) * | 1998-01-26 | 2005-06-22 | 三菱電機株式会社 | 未知語概念推定装置及び未知語概念推定処理プログラムを記録したコンピュータ読みとり可能な記録媒体 |
JP2000231572A (ja) * | 1999-02-10 | 2000-08-22 | Nippon Telegr & Teleph Corp <Ntt> | 名詞シソ−ラスへの未知語登録方法、その装置及び未知語登録プログラムを記録した記録媒体 |
JP2001022761A (ja) * | 1999-07-05 | 2001-01-26 | Nippon Telegr & Teleph Corp <Ntt> | 未知語登録方法および未知語登録装置、並びに未知語登録用プログラムを記録した記録媒体 |
JP2005326952A (ja) * | 2004-05-12 | 2005-11-24 | Nippon Telegr & Teleph Corp <Ntt> | 概念辞書への単語登録方法、装置、およびプログラム |
JP5117744B2 (ja) * | 2007-03-13 | 2013-01-16 | 日本電信電話株式会社 | 単語意味タグ付与装置および方法、プログラム並びに記録媒体 |
JP4963245B2 (ja) * | 2007-03-16 | 2012-06-27 | 日本電信電話株式会社 | 構文・意味解析結果ランキングモデル作成方法および装置、プログラム並びに記録媒体 |
JP2008242626A (ja) * | 2007-03-26 | 2008-10-09 | Mitsubishi Electric Corp | 用語登録装置 |
-
2009
- 2009-06-05 JP JP2009136699A patent/JP5254888B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2010282517A (ja) | 2010-12-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Bhatia et al. | Automatic labelling of topics with neural embeddings | |
US9594747B2 (en) | Generation of a semantic model from textual listings | |
JP7251181B2 (ja) | 対訳処理方法および対訳処理プログラム | |
Pecina | Lexical association measures and collocation extraction | |
US10496756B2 (en) | Sentence creation system | |
Kiyoumarsi | Evaluation of automatic text summarizations based on human summaries | |
US20130253916A1 (en) | Extracting terms from document data including text segment | |
Brooke et al. | Measuring Interlanguage: Native Language Identification with L1-influence Metrics. | |
JP7281905B2 (ja) | 文書評価装置、文書評価方法及びプログラム | |
Serigos | Using distributional semantics in loanword research: A concept-based approach to quantifying semantic specificity of Anglicisms in Spanish | |
JP2013174995A (ja) | 基本語彙抽出装置、及びプログラム | |
Uhrig et al. | Collocation candidate extraction from dependency-annotated corpora: exploring differences across parsers and dependency annotation schemes | |
JP6409071B2 (ja) | 文の並び替え方法および計算機 | |
JP5254888B2 (ja) | 言語資源情報生成装置、方法、プログラム、および記録媒体 | |
JP4143085B2 (ja) | 同義語獲得方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体 | |
JP5438603B2 (ja) | 感性辞書編集支援システム及びプログラム | |
KR100559472B1 (ko) | 영한 자동번역에서 의미 벡터와 한국어 국소 문맥 정보를사용한 대역어 선택시스템 및 방법 | |
JP2018072979A (ja) | 対訳文抽出装置、対訳文抽出方法およびプログラム | |
Fazly | Automatic acquisition of lexical knowledge about multiword predicates | |
US20110106849A1 (en) | New case generation device, new case generation method, and new case generation program | |
JP2011039576A (ja) | 特定情報検出装置、特定情報検出方法および特定情報検出プログラム | |
JP2012003573A (ja) | 感性分析システム及びプログラム | |
JP5145288B2 (ja) | 類義語辞書構築装置及び方法、コンピュータプログラム | |
JP2005326952A (ja) | 概念辞書への単語登録方法、装置、およびプログラム | |
JP4059501B2 (ja) | 自然語辞書更新装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20111109 |
|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20111110 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20111110 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130122 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130325 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130416 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130418 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5254888 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20160426 Year of fee payment: 3 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
LAPS | Cancellation because of no payment of annual fees |