JP2012108570A - 単語意味関係抽出装置及び単語意味関係抽出方法 - Google Patents
単語意味関係抽出装置及び単語意味関係抽出方法 Download PDFInfo
- Publication number
- JP2012108570A JP2012108570A JP2010254625A JP2010254625A JP2012108570A JP 2012108570 A JP2012108570 A JP 2012108570A JP 2010254625 A JP2010254625 A JP 2010254625A JP 2010254625 A JP2010254625 A JP 2010254625A JP 2012108570 A JP2012108570 A JP 2012108570A
- Authority
- JP
- Japan
- Prior art keywords
- word
- semantic
- similarity
- pair
- relationship
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【解決手段】データに含まれる単語から、二つの単語によって構成される単語ペアを抽出し、抽出した単語ペアの単語意味関係を判定する単語意味関係抽出装置において、単語意味関係辞書に登録された単語意味関係単語ペアの単語から複数の文字からなる意味素を抽出し、前記単語意味関係単語ペアの単語の意味素間の類似度を算出し、意味素間の類似度に基づいてデータから抽出された単語ペアの類似度を算出し、単語ペアの類似度に基づいて単語ペアの単語意味関係を判定することを特徴とする。
【選択図】図3
Description
以下、本発明の第1の実施形態を図1〜図11を用いて説明する。
当該識別器に未知の単語ペアの素性が入力された場合、識別モデル適用サブプログラム1124は、未知の単語ペアの素性とS17で学習した教師データに含まれる素性との距離を計算し、計算した距離が小さい順の素性に対応する単語ペアをk個抽出する。
以下、本発明の第2の実施形態を図12及び図13を用いて説明する。
101 CPU
102 主メモリ
103 入出力装置
110 ディスク装置
111 OS
112 単語意味関係抽出プログラム
1121 素性ベクトル抽出サブプログラム
1122 正解ラベル設定サブプログラム
1123 識別モデル学習サブプログラム
1124 識別モデル適用サブプログラム
113 テキスト
1141 同義語辞書
1142 対訳辞書
115 類似度行列
116 文脈行列
117 識別モデル
118 意味素類似度テーブル
Claims (12)
- プロセッサと、前記プロセッサに接続されるメモリと、を備え、前記プロセッサが所定のプログラムを実行することよって、データに含まれる単語から、二つの単語によって構成される単語ペアを抽出し、抽出された単語ペアの単語意味関係を判定する単語意味関係抽出装置において、
前記単語意味関係抽出装置に備わるメモリには、同じ単語意味関係にある単語ペアを示す単語意味関係単語ペアが予め登録された単語意味関係辞書が記憶され、
前記単語意味関係辞書に登録された単語意味関係単語ペアの単語から複数の文字からなる意味素を抽出する意味素抽出部と、
前記単語意味関係単語ペアの単語の意味素間の類似度を算出し、前記算出した意味素間の類似度を意味素類似度情報として前記メモリに記憶する意味素類似度算出部と、
前記メモリに記憶された前記意味素類似度情報の意味素間の類似度に基づいて、前記データから抽出された単語ペアの類似度を算出し、前記算出した単語ペアの類似度を単語ペア類似度情報として前記メモリに記憶する単語ペア類似度算出部と、
前記メモリに記憶された前記単語ペア類似度情報の単語ペアの類似度に基づいて、当該単語ペアの単語意味関係を判定する単語意味関係判定部と、を備えることを特徴とする単語意味関係抽出装置。 - 前記意味素抽出部は、
前記データに含まれる単語から所定の文字数分の文字列を取得する文字列取得部と、
前記文字列取得部によって取得された文字列の前記データにおける出現頻度を集計する出現頻度集計部と、
前記出現頻度集計部によって出現頻度が所定値以上である文字列を意味素として抽出する単語ペア意味素抽出部と、
前記単語ペア意味素抽出部によって抽出された意味素を意味素辞書として、前記メモリに記憶する意味素辞書記憶部と、を備え、
前記メモリに記憶された意味素辞書を参照して、前記メモリに記憶された単語意味関係辞書に登録された単語意味関係単語ペアを構成する単語から前記意味素を抽出することを特徴とする請求項1に記載の単語意味関係抽出装置。 - 前記単語ペア類似度算出部は、
前記データに含まれる単語の前後所定の文字数以内に出現する単語である文脈単語の出現頻度を集計する文脈単語出現頻度集計部と、
前記データから抽出された単語ペアの単語で集計された前記文脈単語の出現頻度に基づいて、当該単語ペアの類似度を算出し、前記算出した単語ペアの類似度を前記単語ペア類似度情報として前記メモリに記憶する文脈類似度算出部と、
前記データから抽出された単語ペアの二つの単語間で重複する文字数に基づいて、当該単語ペアの類似度を算出し、前記算出した単語ペアの類似度を前記単語ペア類似度情報として前記メモリに記憶する重複類似度算出部と、を備えることを特徴とする請求項1に記載の単語意味関係抽出装置。 - 前記単語意味関係判定部は、
前記データから抽出された単語ペアが前記単語意味関係辞書に同じ単語意味関係として登録されている場合、当該単語ペアが同じ単語意味関係にある旨のラベルを、当該単語ペアに対応する前記単語ペア類似度情報に設定し、当該単語ペアが前記単語意味関係辞書に同じ単語意味関係として登録されていない場合、当該単語ペアが同じ単語意味関係にない旨のラベルを、当該単語ペアに対応する前記単語ペア類似度情報に設定するラベル設定部と、
前記ラベル設定部によって単語ペアの前記単語ペア類似度情報に設定されたラベル、及び前記ラベルが設定された単語ペアの類似度に基づいて、前記単語意味関係を判定するための単語意味関係判定ルールを学習し、前記学習した単語意味関係判定ルールを前記メモリに記憶する単語意味関係判定ルール学習部と、を備え、
前記メモリに記憶された単語意味関係判定ルールに基づいて、前記単語ペアの単語意味関係を判定することを特徴とする請求項1に記載の単語意味関係抽出装置。 - 前記単語意味関係は、前記単語ペアが同義語であるか否かの関係であることを特徴とする請求項1に記載の単語意味関係抽出装置。
- 前記単語意味関係は、前記単語ペアが対訳関係にあるか否かの関係であることを特徴とする請求項1に記載の単語意味関係抽出装置。
- プロセッサと、前記プロセッサに接続されるメモリと、を備え、前記プロセッサが所定のプログラムを実行することよって、データに含まれる単語から、二つの単語によって構成される単語ペアを抽出し、抽出された単語ペアの単語意味関係を判定する単語意味関係抽出装置による単語意味関係抽出方法において、
前記メモリには、同じ単語意味関係にある単語ペアを示す単語意味関係単語ペアが予め登録された単語意味関係辞書が記憶され、
前記方法は、
前記単語意味関係辞書に登録された単語意味関係単語ペアの単語から複数の文字からなる意味素を抽出する意味素抽出ステップと、
前記単語意味関係単語ペアの単語の意味素間の類似度を算出し、前記算出した意味素間の類似度を意味素類似度情報として前記メモリに記憶する意味素類似度算出ステップと、
前記メモリに記憶された前記意味素類似度情報意味素間の類似度に基づいて、前記データから抽出された単語ペアの類似度を算出し、前記算出した単語ペアの類似度を単語ペア類似度情報として前記メモリに記憶する単語ペア類似度算出ステップと、
前記単語ペア類似度算出ステップによって算出された単語ペアの類似度に基づいて、当該単語ペアの単語意味関係を判定する単語意味関係判定ステップと、を含むことを特徴とする単語意味関係抽出方法。 - 前記意味素抽出ステップは、
前記データに含まれる単語から所定の文字数分の文字列を取得する文字列取得ステップと、
前記文字列取得部によって取得された文字列の前記データにおける出現頻度を集計する出現頻度集計ステップと、
前記出現頻度集計部によって出現頻度が所定値以上である文字列を意味素として抽出する単語ペア意味素抽出ステップと、
前記単語ペア意味素抽出部によって抽出された意味素を意味素辞書として、前記メモリに記憶する意味素辞書記憶ステップと、を含み、
前記メモリに記憶された意味素辞書を参照して、前記単語意味関係辞書に登録された単語意味関係単語ペアを構成する単語から前記意味素を抽出することを特徴とする請求項7に記載の単語意味関係抽出方法。 - 前記単語ペア類似度算出ステップは、
前記データに含まれる単語の前後所定の文字数以内に出現する単語である文脈単語の出現頻度を集計する文脈単語出現頻度集計ステップと、
前記データから抽出された単語ペアの単語で集計された前記文脈単語の出現頻度に基づいて、当該単語ペアの類似度を算出し、前記算出した単語ペアの類似度を前記単語ペア類似度情報として前記メモリに記憶する文脈類似度算出ステップと、
前記データから抽出された単語ペアの二つの単語間で重複する文字数に基づいて、当該単語ペアの類似度を算出し、前記算出した単語ペアの類似度を前記単語ペア類似度情報として前記メモリに記憶する重複類似度算出ステップと、を備えることを特徴とする請求項7に記載の単語意味関係抽出方法。 - 前記単語意味関係判定ステップは、
前記データから抽出された単語ペアが前記単語意味関係辞書に同じ単語意味関係として登録されている場合、当該単語ペアが同じ単語意味関係にある旨のラベルを、当該単語ペアに対応する前記単語ペア類似度情報に設定し、当該単語ペアが前記単語意味関係辞書に同じ単語意味関係として登録されていない場合、当該単語ペアが同じ単語意味関係にない旨のラベルを、当該単語ペアに対応する前記単語ペア類似度情報に設定するラベル設定ステップと、
前記ラベル設定ステップによって単語ペアの前記単語ペア類似度情報に設定されたラベル、及び前記ラベルが設定された単語ペアの類似度に基づいて、前記単語意味関係を判定するための単語意味関係判定ルールを学習し、前記学習した単語意味関係判定ルールを前記メモリに記憶する単語意味関係判定ルール学習ステップと、を含み、
前記メモリに記憶された単語意味関係判定ルールに基づいて、前記単語ペアの単語意味関係を判定することを特徴とする請求項7に記載の単語意味関係抽出方法。 - 前記単語意味関係は、前記単語ペアが同義語であるか否かの関係であることを特徴とする請求項7に記載の単語意味関係抽出方法。
- 前記単語意味関係は、前記単語ペアが対訳関係にあるか否かの関係であることを特徴とする請求項7に記載の単語意味関係抽出方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010254625A JP5544602B2 (ja) | 2010-11-15 | 2010-11-15 | 単語意味関係抽出装置及び単語意味関係抽出方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010254625A JP5544602B2 (ja) | 2010-11-15 | 2010-11-15 | 単語意味関係抽出装置及び単語意味関係抽出方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2012108570A true JP2012108570A (ja) | 2012-06-07 |
JP5544602B2 JP5544602B2 (ja) | 2014-07-09 |
Family
ID=46494143
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010254625A Expired - Fee Related JP5544602B2 (ja) | 2010-11-15 | 2010-11-15 | 単語意味関係抽出装置及び単語意味関係抽出方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5544602B2 (ja) |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2014006620A (ja) * | 2012-06-22 | 2014-01-16 | Yahoo Japan Corp | 同義語推定装置、同義語推定方法および同義語推定プログラム |
JP2014006621A (ja) * | 2012-06-22 | 2014-01-16 | Yahoo Japan Corp | 同義語推定装置、同義語推定方法および同義語推定プログラム |
JP2014052889A (ja) * | 2012-09-07 | 2014-03-20 | Yahoo Japan Corp | 同義語推定装置、同義語推定方法および同義語推定プログラム |
JP2015106361A (ja) * | 2013-12-02 | 2015-06-08 | 株式会社日立製作所 | データ検索システムおよびデータ検索方法 |
JP5936698B2 (ja) * | 2012-08-27 | 2016-06-22 | 株式会社日立製作所 | 単語意味関係抽出装置 |
JP2017078919A (ja) * | 2015-10-19 | 2017-04-27 | 日本電信電話株式会社 | 単語拡張装置、分類装置、機械学習装置、方法、及びプログラム |
WO2017217661A1 (ko) * | 2016-06-15 | 2017-12-21 | 울산대학교 산학협력단 | 어휘 의미망을 이용한 단어 의미 임베딩 장치 및 방법과, 어휘 의미망 및 단어 임베딩을 이용한 동형이의어 분별 장치 및 방법 |
JP2018165949A (ja) * | 2017-03-28 | 2018-10-25 | 富士通株式会社 | 判定プログラム、判定装置および判定方法 |
CN109657210A (zh) * | 2018-11-13 | 2019-04-19 | 平安科技(深圳)有限公司 | 基于语义解析的文本准确率计算方法、装置、计算机设备 |
JP2019149097A (ja) * | 2018-02-28 | 2019-09-05 | 株式会社日立製作所 | 語彙間関係性推測装置および語彙間関係性推測方法 |
JP2020024139A (ja) * | 2018-08-07 | 2020-02-13 | ファナック株式会社 | 製品検査装置 |
JPWO2019092867A1 (ja) * | 2017-11-10 | 2020-10-22 | 日本電気株式会社 | 情報処理装置、情報処理方法及びプログラム |
KR20210063151A (ko) * | 2019-11-22 | 2021-06-01 | 숙명여자대학교산학협력단 | 데이터의 의미론적 유사 여부를 분석하기 위하여 기계학습을 이용한 전자 장치 및 그 제어 방법 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005011078A (ja) * | 2003-06-19 | 2005-01-13 | Patolis Corp | 類似単語検索装置、この方法、このプログラム、このプログラムを記録した記録媒体、および情報検索システム |
-
2010
- 2010-11-15 JP JP2010254625A patent/JP5544602B2/ja not_active Expired - Fee Related
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005011078A (ja) * | 2003-06-19 | 2005-01-13 | Patolis Corp | 類似単語検索装置、この方法、このプログラム、このプログラムを記録した記録媒体、および情報検索システム |
Non-Patent Citations (2)
Title |
---|
CSNG201000459228; 林克彦 他3名: 'MCCAモデルの日英辞書構築への適用' 言語処理学会第16回年次大会発表論文集 , 20100308, 982-985頁, 言語処理学会 * |
JPN6014003081; 林克彦 他3名: 'MCCAモデルの日英辞書構築への適用' 言語処理学会第16回年次大会発表論文集 , 20100308, 982-985頁, 言語処理学会 * |
Cited By (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2014006621A (ja) * | 2012-06-22 | 2014-01-16 | Yahoo Japan Corp | 同義語推定装置、同義語推定方法および同義語推定プログラム |
JP2014006620A (ja) * | 2012-06-22 | 2014-01-16 | Yahoo Japan Corp | 同義語推定装置、同義語推定方法および同義語推定プログラム |
JP5936698B2 (ja) * | 2012-08-27 | 2016-06-22 | 株式会社日立製作所 | 単語意味関係抽出装置 |
JPWO2014033799A1 (ja) * | 2012-08-27 | 2016-08-08 | 株式会社日立製作所 | 単語意味関係抽出装置 |
JP2014052889A (ja) * | 2012-09-07 | 2014-03-20 | Yahoo Japan Corp | 同義語推定装置、同義語推定方法および同義語推定プログラム |
JP2015106361A (ja) * | 2013-12-02 | 2015-06-08 | 株式会社日立製作所 | データ検索システムおよびデータ検索方法 |
JP2017078919A (ja) * | 2015-10-19 | 2017-04-27 | 日本電信電話株式会社 | 単語拡張装置、分類装置、機械学習装置、方法、及びプログラム |
US10984318B2 (en) | 2016-06-15 | 2021-04-20 | University Of Ulsan Foundation For Industry Cooperation | Word semantic embedding apparatus and method using lexical semantic network and homograph disambiguating apparatus and method using lexical semantic network and word embedding |
WO2017217661A1 (ko) * | 2016-06-15 | 2017-12-21 | 울산대학교 산학협력단 | 어휘 의미망을 이용한 단어 의미 임베딩 장치 및 방법과, 어휘 의미망 및 단어 임베딩을 이용한 동형이의어 분별 장치 및 방법 |
JP2018165949A (ja) * | 2017-03-28 | 2018-10-25 | 富士通株式会社 | 判定プログラム、判定装置および判定方法 |
JPWO2019092867A1 (ja) * | 2017-11-10 | 2020-10-22 | 日本電気株式会社 | 情報処理装置、情報処理方法及びプログラム |
US11687712B2 (en) | 2017-11-10 | 2023-06-27 | Nec Corporation | Lexical analysis training of convolutional neural network by windows of different lengths with matrix of semantic vectors |
JP2019149097A (ja) * | 2018-02-28 | 2019-09-05 | 株式会社日立製作所 | 語彙間関係性推測装置および語彙間関係性推測方法 |
JP2020024139A (ja) * | 2018-08-07 | 2020-02-13 | ファナック株式会社 | 製品検査装置 |
JP7148311B2 (ja) | 2018-08-07 | 2022-10-05 | ファナック株式会社 | 製品検査装置 |
CN109657210A (zh) * | 2018-11-13 | 2019-04-19 | 平安科技(深圳)有限公司 | 基于语义解析的文本准确率计算方法、装置、计算机设备 |
CN109657210B (zh) * | 2018-11-13 | 2023-10-10 | 平安科技(深圳)有限公司 | 基于语义解析的文本准确率计算方法、装置、计算机设备 |
KR20210063151A (ko) * | 2019-11-22 | 2021-06-01 | 숙명여자대학교산학협력단 | 데이터의 의미론적 유사 여부를 분석하기 위하여 기계학습을 이용한 전자 장치 및 그 제어 방법 |
KR102301467B1 (ko) | 2019-11-22 | 2021-09-10 | 숙명여자대학교산학협력단 | 데이터의 의미론적 유사 여부를 분석하기 위하여 기계학습을 이용한 전자 장치 및 그 제어 방법 |
Also Published As
Publication number | Publication date |
---|---|
JP5544602B2 (ja) | 2014-07-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5544602B2 (ja) | 単語意味関係抽出装置及び単語意味関係抽出方法 | |
JP5356197B2 (ja) | 単語意味関係抽出装置 | |
US11030199B2 (en) | Systems and methods for contextual retrieval and contextual display of records | |
US10496928B2 (en) | Non-factoid question-answering system and method | |
Chai | Comparison of text preprocessing methods | |
CN109460552B (zh) | 基于规则和语料库的汉语语病自动检测方法及设备 | |
El-Makky et al. | Sentiment analysis of colloquial Arabic tweets | |
US9262400B2 (en) | Non-transitory computer readable medium and information processing apparatus and method for classifying multilingual documents | |
Thenmalar et al. | Semi-supervised bootstrapping approach for named entity recognition | |
Meetei et al. | Low resource language specific pre-processing and features for sentiment analysis task | |
US9633009B2 (en) | Knowledge-rich automatic term disambiguation | |
Weerasinghe et al. | Feature Vector Difference based Authorship Verification for Open-World Settings. | |
Nehar et al. | Rational kernels for Arabic root extraction and text classification | |
CN111563212A (zh) | 一种内链添加方法及装置 | |
Rexha et al. | Towards Authorship Attribution for Bibliometrics using Stylometric Features. | |
CN110705285A (zh) | 一种政务文本主题词库构建方法、装置、服务器及可读存储介质 | |
Saeed et al. | An abstractive summarization technique with variable length keywords as per document diversity | |
Rofiq | Indonesian news extractive text summarization using latent semantic analysis | |
TW201822031A (zh) | 以文字資訊建立圖表索引方法及其電腦程式產品 | |
Liebeskind et al. | An algorithmic scheme for statistical thesaurus construction in a morphologically rich language | |
Madatov et al. | Dataset of Karakalpak language stop words | |
JP2008282328A (ja) | テキスト分類装置、テキスト分類方法及びテキスト分類プログラム並びにそのプログラムを記録した記録媒体 | |
Ahnaf et al. | Closed domain Bangla extrinsic monolingual plagiarism detection and corpus creation approach | |
WO2014188555A1 (ja) | テキスト処理装置、及び、テキスト処理方法 | |
CN110717029A (zh) | 一种信息处理方法和系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120322 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20130516 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20140122 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20140128 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20140327 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20140415 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20140422 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5544602 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |