JP5916016B2 - 同義判定装置、同義学習装置、及びプログラム - Google Patents
同義判定装置、同義学習装置、及びプログラム Download PDFInfo
- Publication number
- JP5916016B2 JP5916016B2 JP2012274963A JP2012274963A JP5916016B2 JP 5916016 B2 JP5916016 B2 JP 5916016B2 JP 2012274963 A JP2012274963 A JP 2012274963A JP 2012274963 A JP2012274963 A JP 2012274963A JP 5916016 B2 JP5916016 B2 JP 5916016B2
- Authority
- JP
- Japan
- Prior art keywords
- predicate
- feature
- pair
- term
- predicates
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Landscapes
- Machine Translation (AREA)
Description
本発明の実施の形態に係る素性ベクトル構築装置について説明する。図1に示すように、本発明の実施の形態に係る素性ベクトル構築装置100は、CPUとRAMと後述する素性ベクトル構築処理ルーチンを実行するためのプログラムや各種データを記憶したROMと、を含むコンピュータで構成することが出来る。この素性ベクトル構築装置100は、機能的には図1に示すように入力部10と、演算部20と、出力部30とを備えている。
本実施形態では、述部素性ベクトルと項述部素性ベクトルの両方を作成したが、後述する同義学習装置及び同義判定装置で使用される素性ベクトルのみを作成すれば良い。
次に、本発明の実施の形態に係る同義学習装置の構成について説明する。図6に示すように、本発明の実施の形態に係る同義学習装置200は、CPUとRAMと後述する判定モデル学習処理ルーチンを実行するためのプログラムや各種データを記憶したROMと、を含むコンピュータで構成することができる。この同義学習装置200は、機能的には図6に示すように入力部110と、演算部120と、出力部150とを備えている。
辞書定義文素性抽出部136は、入力された正解コーパスのすべての述部ペアの内容語又はすべての「項−述部」ペアの内容語の各々に関して、定義文辞書記憶部134に記憶されている定義文辞書に基づいて「定義文相互補完性」を示す素性と「語彙の重なり」を示す素性を抽出し、抽出対象のペアとともに素性集合記憶部142に出力する。定義文辞書は、複数の述部の内容語の各々に対応する1つ以上の定義文からなり、定義文辞書から抽出される各々の1つ以上の定義文のセットを定義文セットと呼ぶ。なお、定義文相互補完性を示す素性が第1の素性の一例であり、語彙の重なりを示す素性が第3の素性の一例である。また、第1の素性と第3の素性をあわせて辞書定義文素性と呼ぶ。
本実施形態では、第1の素性として、Pred1Match、Pred2Match、Arg1Match、Arg2Matchの全てを使っているが、第1の素性を使う場合において、Arg1MatchとArg2Matchは使わなくてもよい。
意味属性素性抽出部140は、入力された正解コーパスのすべてのペア(述部ペア又は「項−述部」ペア)の各々に関して、当該ペアの述部の内容語の各々の抽象的な意味属性の重なりを示す素性を抽出し、抽出対象のペアとともに素性集合記憶部142に出力する。本実施形態では、抽象的な意味属性の重なりを示す素性として、後述する「重なり用言属性」と「意味属性重み付き重なり率」の二つを抽出する。本実施形態においては、抽出対象の述部の抽象的な意味属性として用言属性を用いる。意味属性辞書は、複数の述部の各々に対応する1つ以上の用言属性からなり、意味属性辞書から抽出される各々の1つ以上の用言属性のセットを用言属性集合と呼ぶ。両方の述語の用言属性集合に共通して出現する用言属性を「重なり用言属性」の素性として抽出する。また、その両方に共通して出現する用言属性が属する階層に重みを付与して算出する「意味属性重み付き重なり率」も素性として抽出することができる。意味属性素性抽出部140は、これらの二つ素性を抽出対象のペアとともに素性集合記憶部142に出力する。
機能表現素性抽出部141は、正解コーパスのすべてのペア(述部ペア又は「項-述部」ペア)の各々に関して、当該ペアの述部の機能表現の意味の重なりを示す素性を抽出し
、抽出対象のペアとともに素性集合記憶部142に出力する。本実施形態では、機能表現の意味の重なりを示す素性として、後述する「重なり意味ラベル」と「意味ラベル重なり率」の二つを抽出する。
次に、本発明の実施の形態に係る同義判定装置300の構成について詳細に説明する。図22に示すように、本発明の実施の形態に係る同義判定装置300は、CPUとRAMと後述する同義判定処理ルーチンを実行するためのプログラムや各種データを記憶したROMと、を含むコンピュータで構成することができる。この同義判定装置300は、機能的には図22に示すように入力部210と、演算部220と、出力部250とを備えている。
次に、本発明の実施の形態に係る素性ベクトル構築装置100の作用について説明する。まず、入力部10によりテキストコーパスが入力される。そして、素性ベクトル構築装置100のROMに記憶されたプログラムを、CPUが実行することにより、図24に示す素性ベクトル構築処理ルーチンが実行される。
次に、本発明の実施の形態に係る同義学習装置200の作用について説明する。まず、入力部110により、素性ベクトル構築装置100により出力された、素性ベクトルが入力され、素性ベクトル記憶部124に記憶される。また、入力部110により正解コーパスが入力される。そして、同義学習装置200のROMに記憶されたプログラムを、CPUが実行することにより、図25に示す同義判定モデル学習処理ルーチンが実行される。
次に、本発明の実施の形態に係る同義判定装置300の作用について説明する。まず、入力部210により、同義学習装置200により出力された同義判定モデルが入力され、同義判定モデル記憶部232に記憶される。また、入力部210により同義判定対象のペア(述部ペア又は「項−述部」ペア)が入力されると、同義判定装置300のROMに記憶されたプログラムを、CPUが実行することにより、図30に示す同義判定処理ルーチンが実行される。
図31〜図34を用いて、同義判定処理ルーチンを実行した例を説明する。図31は、「棚−ヲ−設置する」と「棚−ヲ−撤去する」という「項−述部」ペアを入力とした場合の、同義判定の結果と、当該「項−述部」ペアについての素性一覧を示す。
20,120,220 演算部
24 基本解析部
26 素性抽出部
28 素性ベクトル生成部
30,150,250 出力部
100 素性ベクトル構築装置
122 正解コーパス
124 素性ベクトル記憶部
132 分布類似度計算部
134 定義文辞書記憶部
136 辞書定義文素性抽出部
138 意味属性辞書記憶部
139 機能表現辞書記憶部
140 意味属性素性抽出部
141 機能表現素性抽出部
142 素性集合記憶部
144 同義判定モデル学習部
200 同義学習装置
222 素性構築部
224 素性ベクトル記憶部
226 定義文辞書記憶部
228 意味属性辞書記憶部
229 機能表現辞書記憶部
230 同義判定部
232 同義判定モデル記憶部
300 同義判定装置
1360 定義文抽出部
1362 定義文相互補完性抽出部
1364 語彙の重なり抽出部
1400 意味属性重なり抽出部
1402 意味属性重み付き重なり率計算部
1500 意味ラベル付与部
1502 重なり意味ラベル抽出部
1504 意味ラベル重なり率計算部
Claims (8)
- 予め用意された複数の述部の各々についての定義文からなる定義文集合から得られる、入力された述部ペアの述部各々の定義文に基づいて抽出される、前記述部ペアの述部各々の前記定義文内にペアとなる述部が存在するか否かである第1の素性、及び予め用意された複数の述部の各々についての意味属性からなる意味属性集合から得られる、前記入力された前記述部ペアの述部各々の意味属性に基づいて抽出される前記述部ペアで共通する意味属性である第2の素性のうち少なくとも1つを抽出する素性構築部と、
予め求められた同義判定モデルが記憶された同義判定モデル記憶部と、
前記素性構築部で抽出された素性に基づいて前記同義判定モデル記憶部に記憶された前記同義判定モデルを基に前記入力された述部ペアが同義であるか否かを判定する同義判定部と、
を含む同義判定装置。 - 前記素性構築部は、前記第1の素性及び前記第2の素性のうち少なくとも1つの素性を抽出すると共に、
前記述部ペアの述部各々の前記定義文の両方に出現する語彙の数である第3の素性、
前記入力された前記述部ペアの述部各々の意味属性に基づいて抽出される前記述部ペアに共通する意味属性の詳細の度合いに応じた重みを付加した前記述部ペアの意味属性の重なり度合いである第4の素性、
入力された前記述部ペアの述部の各々について、テキストコーパスにおいて前記述部の周辺に出現する単語を比較した分布類似度である第5の素性、
予め用意された複数の述部の各々の機能表現の意味ラベルからなる意味ラベル集合から得られる、前記入力された前記述部ペアの述部各々の機能表現の意味ラベルに基づいて抽出される前記述部ペアで共通する意味ラベルである第6の素性、及び
前記述部ペアの前記共通する意味ラベルの重なり度合いである第7の素性
のうち少なくとも1つの素性を抽出する、
請求項1記載の同義判定装置。 - 予め用意された複数の述部の各々についての定義文からなる定義文集合から得られる、入力された「項-述部」ペアの述部各々の定義文に基づいて抽出される、前記「項-述部」ペアの述部各々の前記定義文内にペアとなる述部が存在するか否か、及び前記「項-述部」ペアの述部の各々の前記定義文内にペアとなる「項-述部」の項が存在するか否かのうち少なくとも前記述部が存在するか否かである第1の素性、及び予め用意された複数の述部の各々についての意味属性からなる意味属性集合から得られる、前記入力された前記「項-述部」ペアの述部各々の意味属性に基づいて抽出される前記「項-述部」ペアで共通する意味属性である第2の素性のうち少なくとも1つを抽出する素性構築部と、
予め求められた同義判定モデルが記憶された同義判定モデル記憶部と、
前記素性構築部で抽出された素性に基づいて前記同義判定モデル記憶部に記憶された前記同義判定モデルを基に前記入力された「項-述部」ペアが同義であるか否かを判定する同義判定部と、
を含む同義判定装置。 - 前記素性構築部は、前記第1の素性及び前記第2の素性のうち少なくとも1つの素性を抽出すると共に、
前記「項-述部」ペアの述部各々の前記定義文の両方に出現する語彙の数である第3の素性、
前記入力された前記「項-述部」ペアの述部各々の意味属性に基づいて抽出される前記「項-述部」ペアに共通する意味属性の詳細の度合いに応じた重みを付加した前記「項-述部」ペアの意味属性の重なり度合いである第4の素性、
入力された前記「項-述部」ペアの「項-述部」の各々について、テキストコーパスにおいて前記「項-述部」の周辺に出現する単語を比較した分布類似度、及び前記「項-述部」ペアの述部の各々について、テキストコーパスにおいて前記「項-述部」の述部の周辺に出現する単語を比較した分布類似度のうち少なくとも前記「項-述部」の周辺に出現する単語を比較した分布類似度である第5の素性、
予め用意された複数の述部の各々の機能表現の意味ラベルからなる意味ラベル集合から得られる、前記入力された前記「項-述部」ペアの述部各々の機能表現の意味ラベルに基づいて抽出される前記「項-述部」ペアで共通する意味ラベルである第6の素性、及び
前記「項-述部」ペアの前記共通する意味ラベルの重なり度合いである第7の素性
のうち少なくとも1つの素性を抽出する、
請求項3記載の同義判定装置。 - 予め用意された複数の述部の各々についての定義文からなる定義文集合から得られる、述部ペアの述部各々の定義文に基づいて抽出される、前記述部ペアの述部各々の前記定義文内にペアとなる述部が存在するか否かである第1の素性、及び予め用意された複数の述部の各々についての意味属性からなる意味属性集合から得られる、前記述部ペアの述部各々の意味属性で共通する意味属性である第2の素性のうち少なくとも1つを、同義か否かの情報が付され、かつ、予め用意された複数の述部ペアの各々について抽出する素性構築部と、
前記素性構築部によって前記複数の述部ペアについて抽出された第1の素性及び前記第2の素性のうち少なくとも1つと、前記複数の述部ペアについての前記同義か否かの情報とに基づいて同義判定モデルを学習する同義判定モデル学習部と、
を含む同義学習装置。 - 予め用意された複数の述部の各々についての定義文からなる定義文集合から得られる、「項-述部」ペアの述部各々の定義文に基づいて抽出される、前記「項-述部」ペアの述部各々の前記定義文内にペアとなる述部が存在するか否か、及び前記「項-述部」ペアの述部の各々の前記定義文内にペアとなる「項-述部」の項が存在するか否かのうち少なくとも前記述部が存在するか否かである第1の素性、及び予め用意された複数の述部の各々についての意味属性からなる意味属性集合から得られる、前記「項-述部」ペアの述部各々の意味属性で共通する意味属性である第2の素性のうち少なくとも1を、同義か否かの情報が付され、かつ、予め用意された複数の「項-述部」ペアの各々について抽出する素性構築部と、
前記素性構築部によって前記複数の「項-述部」ペアについて抽出された第1の素性及び前記第2の素性のうち少なくとも1つと、前記複数の「項-述部」ペアについての前記同義か否かの情報とに基づいて同義判定モデルを学習する同義判定モデル学習部と、
を含む同義学習装置。 - コンピュータを、請求項1〜4の何れか1項記載の同義判定装置を構成する各手段として機能させるためのプログラム。
- コンピュータを、請求項5〜6の何れか1項記載の同義学習装置を構成する各手段として機能させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012274963A JP5916016B2 (ja) | 2012-12-17 | 2012-12-17 | 同義判定装置、同義学習装置、及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012274963A JP5916016B2 (ja) | 2012-12-17 | 2012-12-17 | 同義判定装置、同義学習装置、及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2014119988A JP2014119988A (ja) | 2014-06-30 |
JP5916016B2 true JP5916016B2 (ja) | 2016-05-11 |
Family
ID=51174769
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2012274963A Expired - Fee Related JP5916016B2 (ja) | 2012-12-17 | 2012-12-17 | 同義判定装置、同義学習装置、及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5916016B2 (ja) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2016021136A (ja) * | 2014-07-14 | 2016-02-04 | 株式会社東芝 | 類義語辞書作成装置 |
CN109408824B (zh) * | 2018-11-05 | 2023-04-25 | 百度在线网络技术(北京)有限公司 | 用于生成信息的方法和装置 |
WO2020144736A1 (ja) * | 2019-01-08 | 2020-07-16 | 三菱電機株式会社 | 意味関係学習装置、意味関係学習方法、及び意味関係学習プログラム |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007079730A (ja) * | 2005-09-12 | 2007-03-29 | Oki Electric Ind Co Ltd | 単語類似判断装置、方法及びプログラム |
JP5504097B2 (ja) * | 2010-08-20 | 2014-05-28 | Kddi株式会社 | 意味的に類似している語対を二項関係に分類する二項関係分類プログラム、方法及び装置 |
CN103562907B (zh) * | 2011-05-10 | 2016-12-07 | 日本电气株式会社 | 用于评估同义表达的设备、方法和程序 |
-
2012
- 2012-12-17 JP JP2012274963A patent/JP5916016B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2014119988A (ja) | 2014-06-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Bonta et al. | A comprehensive study on lexicon based approaches for sentiment analysis | |
Ristoski et al. | Rdf2vec: Rdf graph embeddings for data mining | |
Kang et al. | based measurement of customer satisfaction in mobile service: Sentiment analysis and VIKOR approach | |
US20170116203A1 (en) | Method of automated discovery of topic relatedness | |
US20130060769A1 (en) | System and method for identifying social media interactions | |
Shah et al. | Sentimental Analysis Using Supervised Learning Algorithms | |
Wang et al. | NLP-based query-answering system for information extraction from building information models | |
Rachman et al. | CBE: Corpus-based of emotion for emotion detection in text document | |
KR101806452B1 (ko) | 텍스트 마이닝을 기반으로 한 상품 자동 매핑 방법 및 장치 | |
US20200073890A1 (en) | Intelligent search platforms | |
JP2019082931A (ja) | 検索装置、類似度算出方法、およびプログラム | |
US20230004716A1 (en) | Computing system for entity disambiguation and not-in-list entity detection in a knowledge graph | |
JP5916016B2 (ja) | 同義判定装置、同義学習装置、及びプログラム | |
Kathiria et al. | Trend analysis and forecasting of publication activities by Indian computer science researchers during the period of 2010–23 | |
Shabaz et al. | AS: a novel sentimental analysis approach | |
Zhuo | Consumer demand behavior mining and product recommendation based on online product review mining and fuzzy sets | |
Wongchaisuwat | Automatic keyword extraction using textrank | |
Gezici et al. | Sentiment analysis using domain-adaptation and sentence-based analysis | |
Feng et al. | Product feature extraction via topic model and synonym recognition approach | |
Consuegra-Ayala et al. | Automatic annotation of protected attributes to support fairness optimization | |
JP2015028697A (ja) | 分類モデル学習装置、分類判定装置、方法及びプログラム | |
JP5614687B2 (ja) | 時系列情報とテキスト情報とを含む時系列的テキストデータを解析する情報解析装置 | |
Jayawickrama et al. | Facebook for sentiment analysis: baseline models to predict Facebook reactions of Sinhala posts | |
JP4314271B2 (ja) | 単語間関連度算出装置、単語間関連度算出方法及び単語間関連度算出プログラム並びにそのプログラムを記録した記録媒体 | |
Zhang | Text Complexity Classification Data Mining Model Based on Dynamic Quantitative Relationship between Modality and English Context |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20150225 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20150225 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20151125 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20151201 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20160128 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20160301 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20160330 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5916016 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313117 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
LAPS | Cancellation because of no payment of annual fees |