JP6106489B2 - 語義解析装置、及びプログラム - Google Patents

語義解析装置、及びプログラム Download PDF

Info

Publication number
JP6106489B2
JP6106489B2 JP2013069219A JP2013069219A JP6106489B2 JP 6106489 B2 JP6106489 B2 JP 6106489B2 JP 2013069219 A JP2013069219 A JP 2013069219A JP 2013069219 A JP2013069219 A JP 2013069219A JP 6106489 B2 JP6106489 B2 JP 6106489B2
Authority
JP
Japan
Prior art keywords
word
meaning
characterization
similarity
words
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2013069219A
Other languages
English (en)
Other versions
JP2014191777A (ja
Inventor
山田 一郎
一郎 山田
太郎 宮▲崎▼
太郎 宮▲崎▼
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Japan Broadcasting Corp
Original Assignee
Japan Broadcasting Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Japan Broadcasting Corp filed Critical Japan Broadcasting Corp
Priority to JP2013069219A priority Critical patent/JP6106489B2/ja
Publication of JP2014191777A publication Critical patent/JP2014191777A/ja
Application granted granted Critical
Publication of JP6106489B2 publication Critical patent/JP6106489B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、語義解析装置、及びプログラムに関する。
従来、複数の意味を持つような曖昧性のある単語が、どのような意味で使われやすいかという指標は、国語辞典などで人手により生成された情報を用いていた。また、単語の意味を分類した英語の辞書であるWordNetなどでは、各単語に対して意味付けが人手で行われたSemCor Corpus (http://www.gabormelli.com/RKB/SemCor_Corpus)などを元に、単語に対しての語義をランキングしている(非特許文献1参照)。
"WordNet"、[online]、平成24年12月27日、PRINCETON UNIVERSITY、[平成25年3月14日検索]、インターネット〈URL:http://wordnet.princeton.edu/〉
人が語義の使われやすさをランキングする作業は、膨大な時間を要するため、辞書の生成や更新は困難である。また、検索に用いる目的で語義のランキング結果を利用する場合は、その検索対象ごとに語義の使われやすさを設定するべきであり、人手でこの設定作業を行うことは非常に困難である。
本発明は、このような事情を考慮してなされたもので、複数の意味を持つ単語が、どのような意味で使われやすいかを検索対象に応じてランキングすることができる語義解析装置、及びプログラムを提供する。
[1] 本発明の一態様は、複数の意味を有する単語についての複数の語義が記述された語義記述テキストデータから、前記語義それぞれを特徴付ける語義特徴付け単語を抽出する語義特徴付け単語抽出部と、前記単語との共起関係に基づいてテキストデータの集合から前記単語の関連単語を抽出する関連単語抽出部と、前記語義特徴付け単語抽出部が抽出した前記語義特徴付け単語と、前記関連単語抽出部が抽出した前記関連単語との類似度を計算する類似度計算部と、前記類似度計算部により計算された類似度に基づいて前記語義特徴付け単語に対応した語義が使われやすい順位を決定するランキング処理部と、を備えることを特徴とする語義解析装置である。
この発明によれば、語義解析装置は、語義記述テキストデータから、複数の意味を有する単語の語義それぞれを特徴付ける語義特徴付け単語を抽出するとともに、複数の意味を有する当該単語との共起関係に基づいてテキストデータの集合から関連単語を抽出する。語義解析装置は、抽出した語義特徴付け単語と関連単語との間の類似度を計算し、得られた類似度に基づいて、語義記述テキストデータに記述されている各語義が使われやすい順位を決定する。
これにより、語義解析装置は、複数の意味を持つ単語が、どのような意味で使われやすいかをランキングすることができる。また、語義解析装置は、関連単語を抽出する対象となるテキストデータを変えることで、検索対象に応じて語義のランキングを決定することができる。
[2] 本発明の一態様は、上述する語義解析装置であって、前記語義特徴付け単語抽出部は、前記語義記述テキストデータに記述されている各語義の定義文の最終文節に含まれる名詞を語義特徴付け単語として抽出する、ことを特徴とする。
この発明によれば、語義解析装置は、語義記述テキストデータに記述されている各語義の定義文の最終文節から語義特徴付け単語となる名詞を抽出する。
これにより、語義解析装置は、語義をよく表す名詞を語義特徴付け単語として抽出することができる。
[3] 本発明の一態様は、上述する語義解析装置であって、前記語義特徴付け単語抽出部は、前記定義文の最終文節に含まれる名詞が複数の中の一つであることを表す特定単語である場合、前記最終文節を修飾している文節に含まれる名詞を語義特徴付け単語として抽出する、ことを特徴とする。
この発明によれば、語義解析装置は、語義の定義文の最終文節が、例えば、「ひとつ」、「一種」などの複数の中の一つであることを表す特定単語である場合、前記最終文節を修飾している文節から語義特徴付け単語となる名詞を抽出する。
これにより、語義解析装置は、語義特徴付け単語となる名詞を精度よく抽出することができる。
[4] 本発明の一態様は、上述する語義解析装置であって、前記テキストデータの集合は、前記単語に基づいた検索を行う対象のテキストデータの集合である、ことを特徴とする。
この発明によれば、語義解析装置は、キーワード検索の対象となるテキストデータの集合から、キーワードとして用いられる単語の関連単語を抽出する。
これにより、語義解析装置は、複数の意味を持つ単語がどのような意味で使われやすいかを、検索対象に応じて精度よくランキングすることができる。
[5] 本発明の一態様は、語義解析装置として用いられるコンピュータを、複数の意味を有する単語についての複数の語義が記述された語義記述テキストデータから、前記語義それぞれを特徴付ける語義特徴付け単語を抽出する語義特徴付け単語抽出部、前記単語との共起関係に基づいてテキストデータの集合から前記単語の関連単語を抽出する関連単語抽出部、前記語義特徴付け単語抽出部が抽出した前記語義特徴付け単語と、前記関連単語抽出部が抽出した前記関連単語との類似度を計算する類似度計算部、前記類似度計算部により計算された類似度に基づいて前記語義特徴付け単語に対応した語義が使われやすい順位を決定するランキング処理部、として機能させるためのプログラムである。
本発明によれば、複数の意味を持つ単語が、どのような意味で使われやすいかを検索対象に応じてランキングすることができる。
本発明の一実施形態における語義解析装置の構成を示す機能ブロック図である。 同実施形態における語義記述テキストの例を示す図である。 同実施形態におけるベーステキスト集合の例を示す図である。 同実施形態における語義解析装置の処理手順を示すフローチャートである。 同実施形態における語義特徴付け単語の例を示す図である。 同実施形態におけるランキング作成対象単語に対する関連単語の相互情報量の例を示す図である。 同実施形態における関連単語及び語義特徴付け単語間の分布類似度の例を示す図である。 同実施形態におけるランキング結果の例を示す図である。
以下、図面を参照しながら本発明の実施形態を詳細に説明する。
図1は、本発明の一実施形態による語義解析装置1の構成を示す機能ブロック図である。語義解析装置1は、1台または複数台のコンピュータ装置により実現され、同図に示すように、記憶部10、語義特徴付け単語抽出部11、関連単語抽出部12、類似度計算部13、及びランキング処理部14を備えて構成される。
記憶部10は、各部の処理に用いられる各種データを記憶する。具体的には、記憶部10は、語義記述テキスト、及びベーステキスト集合を記憶する。語義記述テキストは、複数の意味を持つような曖昧性のある単語についての複数の語義が記述されたテキストデータ(語義記述テキストデータ)である。ベーステキスト集合とは、語義ランキングの作成対象である単語に関連する単語を抽出するベースとなるテキストデータの集合である。
語義特徴付け単語抽出部11は、語義ランキングの作成対象である単語の語義を特徴付ける単語を記憶部10に記憶されている語義記述テキストから抽出する。以下では、語義ランキングの作成対象である単語を「ランキング作成対象単語」と記載し、語義を特徴付ける単語を「語義特徴付け単語」記載する。関連単語抽出部12は、記憶部10に記憶されているベーステキスト集合からランキング作成対象単語に関連する単語を抽出する。ベーステキスト集合として、例えば、ランキング作成対象単語をキーワードとして検索を行う対象のテキストデータの集合が用いられる。以下では、ランキング作成対象単語に関連する単語を、「関連単語」と記載する。類似度計算部13は、語義特徴付け単語抽出部11が抽出した語義特徴付け単語と関連単語抽出部12が抽出した関連単語との間の類似度を計算する。ランキング処理部14は、類似度計算部13が算出した類似度に基づいて、各語義特徴付け単語に対応した語義が使われやすい順位を決定する。これにより、ランキング処理部14は、語義記述テキストに記述されているどの語義が使われやすいかのランキングを生成する。
次に、語義解析装置1に用いられるデータを説明する。
図2は、語義記述テキストの例を示す図である。この語義記述テキストとして、例えば、インターネット上で提供される既存の百科事典サービスであるWikipedia(http://ja.wikipedia.org/)の曖昧さ回避のページなどを利用できる。なお、語義記述テキストとして、例えば、国語辞典などの辞書データを用いることもできる。同図に示す語義記述テキストの例では、ランキング作成対象単語「雷」に対して、複数の語義を定義した文が記述されている。
図3は、ベーステキスト集合の例を示す図である。同図においては、ベーステキスト集合として、番組EPG(Electronic Program Guide)が用いられる場合の例を示している。同図に示す番組EPGには、複数の番組について、番組を特定する識別子(Id)、番組名(Title)、番組名の短縮表示(Short Title)、番組説明(Description)、及び番組内容(Detail)の情報が含まれている。
続いて、語義解析装置1の動作について説明する。
図4は、図1に示す語義解析装置1の動作手順を示すフローチャートである。
[ステップS1:語義特徴付け単語抽出処理]
語義特徴付け単語抽出部11は、例えばインターネット上で公開されている語義記述テキストから、ランキング作成対象単語の語義記述テキストを読み出し、記憶部10に書き込む。あるいは、語義特徴付け単語抽出部11は、予め記憶部10に記憶されている国語辞典などの語義記述テキストからランキング作成対象単語の語義記述テキストを読み出してもよい。語義特徴付け単語抽出部11は、ランキング作成対象単語についての複数の語義が記述された語義記述テキストから、それらの各語義を特徴付ける語義特徴付け単語を抽出する。
具体的には、語義特徴付け単語抽出部11は、ランキング作成対象単語についての語義が記述された語義記述テキストから、各語義を定義する最初の定義文を読み出して構文解析し、その定義文の最終文節を、語義特徴付け単語を抽出する対象の文節とする。以下、語義特徴付け単語を抽出する対象の文節を「単語抽出対象文節」と記載する。語義特徴付け単語抽出部11は、単語抽出対象文節にある名詞を抽出する。
ただし、最終文節が「ひとつ」、「一種」などの複数の中の一つであることを表す特定単語の場合、語義特徴付け単語抽出部11は、その最終文節を修飾している「の格」であり、かつ、最終文節に最も近い文節を単語抽出対象文節とし、名詞を抽出する。なお、特定単語は、予め記憶部10に記憶させておく。例えば、図2に示すランキング作成対象単語「雷」の語義記述テキストの場合、定義文「ゲーム用語のひとつ」の最終文節は「ひとつ」である。そこで、語義特徴付け単語抽出部11は、最終文節「ひとつ」を修飾する文節「ゲーム用語の」を単語抽出対象文節とし、名詞「ゲーム用語」を抽出する。
さらに、語義特徴付け単語抽出部11は、単語抽出対象文節から抽出した名詞に不要な接尾辞がある場合、その接尾辞を削除する。例えば、語義特徴付け単語抽出部11は、「漫画版」から接尾辞「版」を削除して「漫画」とする。なお、不要な接尾辞は、予め記憶部10に記憶しておく。また、語義特徴付け単語抽出部11は、定義文に単語抽出対象文節と並列関係にある文節が存在する場合、並列する文節も単語抽出対象文節として名詞を抽出することにより、複数の名詞の抽出を許す。図2に示す語義記述テキストの例に示す定義文「自然現象・気象のひとつ」の場合、最終文節「ひとつ」を修飾し、かつ最終文節に最も近い文節「気象の」が単語抽出対象文節となり、また、この文節と並列関係にある文節「自然現象・」も単語抽出対象文節となる。これにより、語義特徴付け単語抽出部11は、各単語抽出対象文節からそれぞれ、名詞「自然現象」、名詞「気象」を抽出する。
語義特徴付け単語抽出部11は、単語抽出対象文節から名詞を抽出する際、できるだけ一般的な名詞を抽出するために、抽出した名詞を構成する形態素(最小の意味単位)を先頭から順に削除し、一般的な名詞か否かを判断する処理を行う。そこで、例えば、ウェブに頻出する上位100万語の名詞などを頻出名詞として予め記憶部10に記憶しておく。これは、例えば、インターネット上で公開されている頻出名詞のデータを取得して記憶することでもよく、インターネット上で各名詞を検索したときのヒット数などに基づいて選択した頻出名詞を記憶することでもよい。語義特徴付け単語抽出部11は、記憶部10に記憶されている頻出名詞と合致するまで、単語抽出対象文節から抽出した名詞を構成する形態素を、先頭から順に削除する。例えば、図2に示す語義記述テキストの4つめの定義文「日本の男性アイドルグループ」の場合、語義特徴付け単語抽出部11は、最終文節を単語抽出対象文節として名詞「男性アイドルグループ」を抽出する。語義特徴付け単語抽出部11は、この抽出した名詞を、形態素解析処理により「男性/アイドル/グループ」に分割する。そしてまず、語義特徴付け単語抽出部11は、「男性アイドルグループ」が一般的な名詞か否かを判断する。語義特徴付け単語抽出部11は、「男性アイドルグループ」は頻出名詞に含まれていないため、一般的な名詞ではないと判断して先頭の形態素「男性」を削除し、「アイドルグループ」が一般的な名詞か否かを判断する。語義特徴付け単語抽出部11は、「アイドルグループ」が頻出名詞に含まれるため一般的な名詞と判断し、4つめの定義文からは「アイドルグループ」を抽出する。
語義特徴付け単語抽出部11は、上記の処理により抽出した名詞を、語義特徴付け単語として類似度計算部13に出力する。
図5は、上記処理により語義特徴付け単語抽出部11が抽出した語義特徴付け単語の例を示す図である。同図においては、語義特徴付け単語抽出部11が、図2に示す語義記述テキストの各定義文から抽出した語義特徴付け単語を示している。
[ステップS2:関連単語抽出処理]
次に、関連単語抽出部12は、ベーステキスト集合からランキング作成対象単語の関連名詞を抽出する(ステップS2)。この処理では、ランキング作成対象単語をキーワードとして用いて検索を行う対象となるテキストデータの集合を、ベーステキスト集合として用いることができる。例えば、テレビ番組を検索する場合、番組EPGなどのテキストデータをベーステキスト集合として利用する。本実施形態では、図3に示す番組EPGをベーステキスト集合として用いる。
関連単語抽出部12は、記憶部10に記憶されている番組EPGから番組内容を記述した文(例えばDetailに記述されている文)を抽出して形態素解析を行い、名詞を抽出する。この際、関連単語抽出部12は、文節ごとに一般的な名詞のみを抽出する。一般的な名詞であるかの判断は、ステップS1と同様に、記憶部10に記憶されている頻出名詞との合致に基づいて行う。
次に、関連単語抽出部12は、抽出した名詞とランキング作成対象単語との関連性を評価する。この関連性の評価には、例えば、従来からある相互情報量という指標を使うことができる。単語Aと単語Bに対する相互情報量MI(A,B)は、以下の式(1)により定義される。ただし、単語Aをランキング作成対象単語、単語Bを関連単語とする。関連単語は、番組内容の記述文においてランキング作成対象単語と共起する名詞である。
Figure 0006106489
式(1)において、P(A,B)は単語Aと単語Bが同じ番組の番組内容(Detail)の記述文に出現している確率値、P(A)は全番組の番組内容の記述文において単語Aが出現する確率値、P(B)は全番組の番組内容の記述文において単語Bが出現する確率値を示す。相互情報量MI(A,B)の値が大きいほど、単語Aと単語Bは関係が深いと言える。関連単語抽出部12は、式(1)を用いて、ランキング作成対象単語(単語A)に対する各関連単語(単語B)の相互情報量を算出する。
図6は、ランキング作成対象単語に対する各関連単語の相互情報量の例を示す図である。同図では、図3に示す番組EPGの番組内容の記述文においてランキング作成対象単語「雷」と共起する関連名詞についての相互情報量を示している。関連単語抽出部12は、各関連単語と、それら関連単語について算出した相互情報量とを類似度計算部13に出力する。
[ステップS3:類似度計算処理]
次に、類似度計算部13は、ステップS1において抽出された語義特徴付け単語と、ステップS2において抽出された関連単語との間の類似度を求める。本実施形態では、類似度として分布類似度などの指標を利用する。分布類似度では、実際のテキスト等における単語の係り受けの関係に基づいて各単語をクラスタリングし、そのクラスタリングの結果から各単語のクラスへの所属確率の分布を求め、この確率分布間の距離から単語間の類似度を計算する。分布類似度については、例えば、参考文献「風間,De Saeger,鳥澤,村田,”係り受けの確率的クラスタリングを用いた大規模類似語リストの作成,”言語処理学会第第15回年次大会発表論文集,C1-6,pp.84-87. (2009))」に記載されている。類似度計算部13は、関連単語抽出部12から入力された関連単語のうち、相互情報量が上位の100までの関連単語を対象として、語義特徴付け単語抽出部11から入力された各語義特徴付け単語との分布類似度を、ベーステキスト集合の記述を利用して計算する。
図7は、各関連単語と各語義特徴付け単語との分布類似度の計算結果例を示す。同図においては、図5に示す各語義特徴付け単語と、図6に示す関連単語のうち相互情報量が上位100に含まれる関連単語との分布類似度の計算結果を示している。類似度計算部13は、各関連単語と各語義特徴付け単語との分布類似度の計算結果をランキング処理部14に出力する。
なお、上記においては類似度として、分布類似度を用いたが、単語間の類似度を定量的な値で示す他の指標値を用いてもよい。例えば、シソーラスにおける単語間の距離などを類似度として用いることができる。
[ステップS4:ランキング処理]
ランキング処理部14は、ステップS3において計算された分布類似度を利用して、各語義のランキングを行う。そこで、ランキング作成対象単語の語義をSemとすると、ランキング処理部14は、以下の式(2)により各語義Semの重みであるWeight(Sem)を算出する。
Figure 0006106489
式(2)において、noun(Sem)は、語義Semの語義特徴付け単語としてステップS1で抽出された名詞である。また、D(noun(Sem))は、語義Semから語義特徴付け単語として抽出された名詞の数を示す。Dsim(t,es)は、単語tと単語esとの分布類似度を示し、単語tは、ステップS2において抽出された関連単語であり、単語esは、語義Semから語義特徴付け単語として抽出されたi番目の名詞noun(Sem)である(iは1以上D(noun(Sem))以下の整数)。例えば、図5に示すように、語義Semが「自然現象・気象のひとつ。稲妻。」の場合、noun(Sem)は「自然現象」及び「気象」であり、D(noun(Sem))は「2」であり、単語esは「自然現象」であり、単語esは「気象」である。
ランキング処理部14は、算出したWeight(Sem)の降順に語義をランキングした結果を示すデータを生成する。
図8は、ランキング作成対象単語「雷」の語義に対するランキング結果を示す図である。ランキング処理部14は、ランキング結果として、語義Semのランキング(順位)と、その語義Semから語義特徴付け単語として抽出された名詞noun(Sem)と、算出された語義Semの重みWeight(Sem)とを対応付けたデータをランキング結果として生成する。ランキング処理部14は、生成したランキング結果のデータを、記憶部10に書き込む、あるいは、表示装置や他のコンピュータ装置などに出力する。
番組をオンデマンドで配信するインターネット上のウェブサイトにおいてユーザが興味のある番組を検索する場合、例えば、番組EPGが検索対象として利用される。そこで、上述した実施形態のように、ベーステキスト集合として番組EPGを用いて語義のランキングを作成する。そして、ユーザが番組検索のために入力したキーワードがどのような意味で用いられたかをランキング結果から把握し、把握した意味を番組EPGの検索に利用することにより、番組検索の精度を高めることが可能となる。
また、例えば、ベーステキスト集合としてニューステキストの集合を用いた場合、「自然現象、気象」を語義特徴付け単語とした語義がランキングの上位となることが予想される。
このように、関連単語を抽出するためのベーステキスト集合を変えることによって、検索対象に依存した語義のランキング結果を得ることができる。
以上説明したように、本実施形態の語義解析装置1によれば、大規模なテキスト集合を利用し、人手を介すことなく、複数の意味を持つような曖昧性のある単語が、どのような意味で使われやすいかを推定することができる。さらに、本実施形態の語義解析装置1によれば、ベーステキスト集合として利用する大規模テキスト集合を、検索対象の文書集合や、検索対象の文書集合と同じまたは類似のカテゴリの文書集合とすることにより、検索対象ごとに語義の使われやすさのランキングを得ることができる。
なお、上述の語義解析装置1は、内部にコンピュータシステムを有している。そして、語義解析装置1の動作の過程は、プログラムの形式でコンピュータ読み取り可能な記録媒体に記憶されており、このプログラムをコンピュータシステムが読み出して実行することによって、上記処理が行われる。ここでいうコンピュータシステムとは、CPU及び各種メモリやOS、周辺機器等のハードウェアを含むものである。
また、「コンピュータシステム」は、WWWシステムを利用している場合であれば、ホームページ提供環境(あるいは表示環境)も含むものとする。
また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含むものとする。また上記プログラムは、前述した機能の一部を実現するためのものであっても良く、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであっても良い。
1 語義解析装置
10 記憶部
11 語義特徴付け単語抽出部
12 関連単語抽出部
13 類似度計算部
14 ランキング処理部

Claims (5)

  1. 複数の意味を有する単語についての複数の語義が記述された語義記述テキストデータから、前記語義それぞれを特徴付ける語義特徴付け単語を抽出する語義特徴付け単語抽出部と、
    前記単語との共起関係に基づいてテキストデータの集合から前記単語の関連単語を抽出する関連単語抽出部と、
    前記語義特徴付け単語抽出部が抽出した前記語義特徴付け単語と、前記関連単語抽出部が抽出した前記関連単語との類似度を計算する類似度計算部と、
    前記類似度計算部により計算された類似度に基づいて前記語義特徴付け単語に対応した語義が使われやすい順位を決定するランキング処理部と、
    を備えることを特徴とする語義解析装置。
  2. 前記語義特徴付け単語抽出部は、前記語義記述テキストデータに記述されている各語義の定義文の最終文節に含まれる名詞を語義特徴付け単語として抽出する、
    ことを特徴とする請求項1に記載の語義解析装置。
  3. 前記語義特徴付け単語抽出部は、前記定義文の最終文節に含まれる名詞が複数の中の一つであることを表す特定単語である場合、前記最終文節を修飾している文節に含まれる名詞を語義特徴付け単語として抽出する、
    ことを特徴とする請求項2に記載の語義解析装置。
  4. 前記テキストデータの集合は、前記単語に基づいた検索を行う対象のテキストデータの集合である、
    ことを特徴とする請求項1から請求項3のいずれか1項に記載の語義解析装置。
  5. 語義解析装置として用いられるコンピュータを、
    複数の意味を有する単語についての複数の語義が記述された語義記述テキストデータから、前記語義それぞれを特徴付ける語義特徴付け単語を抽出する語義特徴付け単語抽出部
    前記単語との共起関係に基づいてテキストデータの集合から前記単語の関連単語を抽出する関連単語抽出部
    前記語義特徴付け単語抽出部が抽出した前記語義特徴付け単語と、前記関連単語抽出部が抽出した前記関連単語との類似度を計算する類似度計算部
    前記類似度計算部により計算された類似度に基づいて前記語義特徴付け単語に対応した語義が使われやすい順位を決定するランキング処理部
    として機能させるためのプログラム。
JP2013069219A 2013-03-28 2013-03-28 語義解析装置、及びプログラム Expired - Fee Related JP6106489B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2013069219A JP6106489B2 (ja) 2013-03-28 2013-03-28 語義解析装置、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013069219A JP6106489B2 (ja) 2013-03-28 2013-03-28 語義解析装置、及びプログラム

Publications (2)

Publication Number Publication Date
JP2014191777A JP2014191777A (ja) 2014-10-06
JP6106489B2 true JP6106489B2 (ja) 2017-03-29

Family

ID=51837915

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013069219A Expired - Fee Related JP6106489B2 (ja) 2013-03-28 2013-03-28 語義解析装置、及びプログラム

Country Status (1)

Country Link
JP (1) JP6106489B2 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106815179B (zh) * 2015-11-27 2020-10-20 阿里巴巴集团控股有限公司 一种文本相似度确定方法及装置
CN111625619B (zh) * 2019-02-28 2024-03-01 北京沃东天骏信息技术有限公司 查询省略方法、装置、计算机可读介质及电子设备
CN111460118B (zh) * 2020-03-26 2023-10-20 聚好看科技股份有限公司 一种人工智能冲突语义识别方法及装置

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3209125B2 (ja) * 1996-12-13 2001-09-17 日本電気株式会社 語義曖昧性解消装置
CN101840397A (zh) * 2009-03-20 2010-09-22 日电(中国)有限公司 词义消歧方法和系统

Also Published As

Publication number Publication date
JP2014191777A (ja) 2014-10-06

Similar Documents

Publication Publication Date Title
KR101060594B1 (ko) 문서 데이터의 키워드 추출 및 연관어 네트워크 구성 장치 및 방법
US8463593B2 (en) Natural language hypernym weighting for word sense disambiguation
US7890500B2 (en) Systems and methods for using and constructing user-interest sensitive indicators of search results
KR101548096B1 (ko) 문서 자동 요약 방법 및 서버
EP3016002A1 (en) Non-factoid question-and-answer system and method
JP5710581B2 (ja) 質問応答装置、方法、及びプログラム
WO2009059297A1 (en) Method and apparatus for automated tag generation for digital content
Imam et al. An ontology-based summarization system for arabic documents (ossad)
TWI656450B (zh) 從中文語料庫提取知識的方法和系統
US8812504B2 (en) Keyword presentation apparatus and method
US9773166B1 (en) Identifying longform articles
KR101508070B1 (ko) 어휘지도를 이용한 용언의 다의어 의미 분석 방법
Tang et al. Overview of the NTCIR-9 Crosslink Task: Cross-lingual Link Discovery.
JP2011118689A (ja) 検索方法及びシステム
De Wilde et al. Semantic enrichment of a multilingual archive with linked open data
JP6106489B2 (ja) 語義解析装置、及びプログラム
KR101928074B1 (ko) 문맥 정보에 기반한 콘텐츠 제공 서버 및 방법
JP4143085B2 (ja) 同義語獲得方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体
Fauzi et al. Image understanding and the web: a state-of-the-art review
JP5186165B2 (ja) 組織名抽出装置、方法及びプログラム
Klang et al. Linking, searching, and visualizing entities in wikipedia
JP4428703B2 (ja) 情報検索方法及びそのシステム並びにコンピュータプログラム
JP4934115B2 (ja) キーワード抽出装置、方法及びプログラム
Ahmed et al. A web statistics based conflation approach to improve Arabic text retrieval
Nyandag et al. Performance analysis of optimized content extraction for Cyrillic Mongolian learning text materials in the database

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20160201

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20161109

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20161115

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170113

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170207

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170306

R150 Certificate of patent or registration of utility model

Ref document number: 6106489

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees