JP6106489B2 - 語義解析装置、及びプログラム - Google Patents
語義解析装置、及びプログラム Download PDFInfo
- Publication number
- JP6106489B2 JP6106489B2 JP2013069219A JP2013069219A JP6106489B2 JP 6106489 B2 JP6106489 B2 JP 6106489B2 JP 2013069219 A JP2013069219 A JP 2013069219A JP 2013069219 A JP2013069219 A JP 2013069219A JP 6106489 B2 JP6106489 B2 JP 6106489B2
- Authority
- JP
- Japan
- Prior art keywords
- word
- meaning
- characterization
- similarity
- words
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000605 extraction Methods 0.000 claims description 69
- 238000012512 characterization method Methods 0.000 claims description 47
- 238000004458 analytical method Methods 0.000 claims description 36
- 239000000284 extract Substances 0.000 claims description 27
- 238000009826 distribution Methods 0.000 description 13
- 238000010586 diagram Methods 0.000 description 7
- 238000000034 method Methods 0.000 description 6
- 230000015654 memory Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000000877 morphologic effect Effects 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
Images
Landscapes
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
この発明によれば、語義解析装置は、語義記述テキストデータから、複数の意味を有する単語の語義それぞれを特徴付ける語義特徴付け単語を抽出するとともに、複数の意味を有する当該単語との共起関係に基づいてテキストデータの集合から関連単語を抽出する。語義解析装置は、抽出した語義特徴付け単語と関連単語との間の類似度を計算し、得られた類似度に基づいて、語義記述テキストデータに記述されている各語義が使われやすい順位を決定する。
これにより、語義解析装置は、複数の意味を持つ単語が、どのような意味で使われやすいかをランキングすることができる。また、語義解析装置は、関連単語を抽出する対象となるテキストデータを変えることで、検索対象に応じて語義のランキングを決定することができる。
この発明によれば、語義解析装置は、語義記述テキストデータに記述されている各語義の定義文の最終文節から語義特徴付け単語となる名詞を抽出する。
これにより、語義解析装置は、語義をよく表す名詞を語義特徴付け単語として抽出することができる。
この発明によれば、語義解析装置は、語義の定義文の最終文節が、例えば、「ひとつ」、「一種」などの複数の中の一つであることを表す特定単語である場合、前記最終文節を修飾している文節から語義特徴付け単語となる名詞を抽出する。
これにより、語義解析装置は、語義特徴付け単語となる名詞を精度よく抽出することができる。
この発明によれば、語義解析装置は、キーワード検索の対象となるテキストデータの集合から、キーワードとして用いられる単語の関連単語を抽出する。
これにより、語義解析装置は、複数の意味を持つ単語がどのような意味で使われやすいかを、検索対象に応じて精度よくランキングすることができる。
図1は、本発明の一実施形態による語義解析装置1の構成を示す機能ブロック図である。語義解析装置1は、1台または複数台のコンピュータ装置により実現され、同図に示すように、記憶部10、語義特徴付け単語抽出部11、関連単語抽出部12、類似度計算部13、及びランキング処理部14を備えて構成される。
図2は、語義記述テキストの例を示す図である。この語義記述テキストとして、例えば、インターネット上で提供される既存の百科事典サービスであるWikipedia(http://ja.wikipedia.org/)の曖昧さ回避のページなどを利用できる。なお、語義記述テキストとして、例えば、国語辞典などの辞書データを用いることもできる。同図に示す語義記述テキストの例では、ランキング作成対象単語「雷」に対して、複数の語義を定義した文が記述されている。
図4は、図1に示す語義解析装置1の動作手順を示すフローチャートである。
語義特徴付け単語抽出部11は、例えばインターネット上で公開されている語義記述テキストから、ランキング作成対象単語の語義記述テキストを読み出し、記憶部10に書き込む。あるいは、語義特徴付け単語抽出部11は、予め記憶部10に記憶されている国語辞典などの語義記述テキストからランキング作成対象単語の語義記述テキストを読み出してもよい。語義特徴付け単語抽出部11は、ランキング作成対象単語についての複数の語義が記述された語義記述テキストから、それらの各語義を特徴付ける語義特徴付け単語を抽出する。
語義特徴付け単語抽出部11は、上記の処理により抽出した名詞を、語義特徴付け単語として類似度計算部13に出力する。
次に、関連単語抽出部12は、ベーステキスト集合からランキング作成対象単語の関連名詞を抽出する(ステップS2)。この処理では、ランキング作成対象単語をキーワードとして用いて検索を行う対象となるテキストデータの集合を、ベーステキスト集合として用いることができる。例えば、テレビ番組を検索する場合、番組EPGなどのテキストデータをベーステキスト集合として利用する。本実施形態では、図3に示す番組EPGをベーステキスト集合として用いる。
次に、類似度計算部13は、ステップS1において抽出された語義特徴付け単語と、ステップS2において抽出された関連単語との間の類似度を求める。本実施形態では、類似度として分布類似度などの指標を利用する。分布類似度では、実際のテキスト等における単語の係り受けの関係に基づいて各単語をクラスタリングし、そのクラスタリングの結果から各単語のクラスへの所属確率の分布を求め、この確率分布間の距離から単語間の類似度を計算する。分布類似度については、例えば、参考文献「風間,De Saeger,鳥澤,村田,”係り受けの確率的クラスタリングを用いた大規模類似語リストの作成,”言語処理学会第第15回年次大会発表論文集,C1-6,pp.84-87. (2009))」に記載されている。類似度計算部13は、関連単語抽出部12から入力された関連単語のうち、相互情報量が上位の100までの関連単語を対象として、語義特徴付け単語抽出部11から入力された各語義特徴付け単語との分布類似度を、ベーステキスト集合の記述を利用して計算する。
ランキング処理部14は、ステップS3において計算された分布類似度を利用して、各語義のランキングを行う。そこで、ランキング作成対象単語の語義をSemとすると、ランキング処理部14は、以下の式(2)により各語義Semの重みであるWeight(Sem)を算出する。
ランキング処理部14は、算出したWeight(Sem)の降順に語義をランキングした結果を示すデータを生成する。
また、例えば、ベーステキスト集合としてニューステキストの集合を用いた場合、「自然現象、気象」を語義特徴付け単語とした語義がランキングの上位となることが予想される。
このように、関連単語を抽出するためのベーステキスト集合を変えることによって、検索対象に依存した語義のランキング結果を得ることができる。
また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含むものとする。また上記プログラムは、前述した機能の一部を実現するためのものであっても良く、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであっても良い。
10 記憶部
11 語義特徴付け単語抽出部
12 関連単語抽出部
13 類似度計算部
14 ランキング処理部
Claims (5)
- 複数の意味を有する単語についての複数の語義が記述された語義記述テキストデータから、前記語義それぞれを特徴付ける語義特徴付け単語を抽出する語義特徴付け単語抽出部と、
前記単語との共起関係に基づいてテキストデータの集合から前記単語の関連単語を抽出する関連単語抽出部と、
前記語義特徴付け単語抽出部が抽出した前記語義特徴付け単語と、前記関連単語抽出部が抽出した前記関連単語との類似度を計算する類似度計算部と、
前記類似度計算部により計算された類似度に基づいて前記語義特徴付け単語に対応した語義が使われやすい順位を決定するランキング処理部と、
を備えることを特徴とする語義解析装置。 - 前記語義特徴付け単語抽出部は、前記語義記述テキストデータに記述されている各語義の定義文の最終文節に含まれる名詞を語義特徴付け単語として抽出する、
ことを特徴とする請求項1に記載の語義解析装置。 - 前記語義特徴付け単語抽出部は、前記定義文の最終文節に含まれる名詞が複数の中の一つであることを表す特定単語である場合、前記最終文節を修飾している文節に含まれる名詞を語義特徴付け単語として抽出する、
ことを特徴とする請求項2に記載の語義解析装置。 - 前記テキストデータの集合は、前記単語に基づいた検索を行う対象のテキストデータの集合である、
ことを特徴とする請求項1から請求項3のいずれか1項に記載の語義解析装置。 - 語義解析装置として用いられるコンピュータを、
複数の意味を有する単語についての複数の語義が記述された語義記述テキストデータから、前記語義それぞれを特徴付ける語義特徴付け単語を抽出する語義特徴付け単語抽出部と、
前記単語との共起関係に基づいてテキストデータの集合から前記単語の関連単語を抽出する関連単語抽出部と、
前記語義特徴付け単語抽出部が抽出した前記語義特徴付け単語と、前記関連単語抽出部が抽出した前記関連単語との類似度を計算する類似度計算部と、
前記類似度計算部により計算された類似度に基づいて前記語義特徴付け単語に対応した語義が使われやすい順位を決定するランキング処理部と、
として機能させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013069219A JP6106489B2 (ja) | 2013-03-28 | 2013-03-28 | 語義解析装置、及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013069219A JP6106489B2 (ja) | 2013-03-28 | 2013-03-28 | 語義解析装置、及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2014191777A JP2014191777A (ja) | 2014-10-06 |
JP6106489B2 true JP6106489B2 (ja) | 2017-03-29 |
Family
ID=51837915
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2013069219A Expired - Fee Related JP6106489B2 (ja) | 2013-03-28 | 2013-03-28 | 語義解析装置、及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6106489B2 (ja) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106815179B (zh) * | 2015-11-27 | 2020-10-20 | 阿里巴巴集团控股有限公司 | 一种文本相似度确定方法及装置 |
CN111625619B (zh) * | 2019-02-28 | 2024-03-01 | 北京沃东天骏信息技术有限公司 | 查询省略方法、装置、计算机可读介质及电子设备 |
CN111460118B (zh) * | 2020-03-26 | 2023-10-20 | 聚好看科技股份有限公司 | 一种人工智能冲突语义识别方法及装置 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3209125B2 (ja) * | 1996-12-13 | 2001-09-17 | 日本電気株式会社 | 語義曖昧性解消装置 |
CN101840397A (zh) * | 2009-03-20 | 2010-09-22 | 日电(中国)有限公司 | 词义消歧方法和系统 |
-
2013
- 2013-03-28 JP JP2013069219A patent/JP6106489B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2014191777A (ja) | 2014-10-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR101060594B1 (ko) | 문서 데이터의 키워드 추출 및 연관어 네트워크 구성 장치 및 방법 | |
US8463593B2 (en) | Natural language hypernym weighting for word sense disambiguation | |
US7890500B2 (en) | Systems and methods for using and constructing user-interest sensitive indicators of search results | |
KR101548096B1 (ko) | 문서 자동 요약 방법 및 서버 | |
EP3016002A1 (en) | Non-factoid question-and-answer system and method | |
JP5710581B2 (ja) | 質問応答装置、方法、及びプログラム | |
WO2009059297A1 (en) | Method and apparatus for automated tag generation for digital content | |
Imam et al. | An ontology-based summarization system for arabic documents (ossad) | |
TWI656450B (zh) | 從中文語料庫提取知識的方法和系統 | |
US8812504B2 (en) | Keyword presentation apparatus and method | |
US9773166B1 (en) | Identifying longform articles | |
KR101508070B1 (ko) | 어휘지도를 이용한 용언의 다의어 의미 분석 방법 | |
Tang et al. | Overview of the NTCIR-9 Crosslink Task: Cross-lingual Link Discovery. | |
JP2011118689A (ja) | 検索方法及びシステム | |
De Wilde et al. | Semantic enrichment of a multilingual archive with linked open data | |
JP6106489B2 (ja) | 語義解析装置、及びプログラム | |
KR101928074B1 (ko) | 문맥 정보에 기반한 콘텐츠 제공 서버 및 방법 | |
JP4143085B2 (ja) | 同義語獲得方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体 | |
Fauzi et al. | Image understanding and the web: a state-of-the-art review | |
JP5186165B2 (ja) | 組織名抽出装置、方法及びプログラム | |
Klang et al. | Linking, searching, and visualizing entities in wikipedia | |
JP4428703B2 (ja) | 情報検索方法及びそのシステム並びにコンピュータプログラム | |
JP4934115B2 (ja) | キーワード抽出装置、方法及びプログラム | |
Ahmed et al. | A web statistics based conflation approach to improve Arabic text retrieval | |
Nyandag et al. | Performance analysis of optimized content extraction for Cyrillic Mongolian learning text materials in the database |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20160201 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20161109 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20161115 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20170113 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20170207 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20170306 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6106489 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |