JP2017156890A - 同義語検出装置、同義語検出方法及び同義語検出用コンピュータプログラム - Google Patents
同義語検出装置、同義語検出方法及び同義語検出用コンピュータプログラム Download PDFInfo
- Publication number
- JP2017156890A JP2017156890A JP2016038100A JP2016038100A JP2017156890A JP 2017156890 A JP2017156890 A JP 2017156890A JP 2016038100 A JP2016038100 A JP 2016038100A JP 2016038100 A JP2016038100 A JP 2016038100A JP 2017156890 A JP2017156890 A JP 2017156890A
- Authority
- JP
- Japan
- Prior art keywords
- synonym
- compound
- nouns
- noun
- compound noun
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 96
- 238000004590 computer program Methods 0.000 title claims description 7
- 238000000034 method Methods 0.000 title description 15
- 150000001875 compounds Chemical class 0.000 claims abstract description 403
- 238000004458 analytical method Methods 0.000 claims abstract description 31
- 230000000877 morphologic effect Effects 0.000 claims abstract description 24
- 238000011156 evaluation Methods 0.000 claims description 57
- 238000012545 processing Methods 0.000 description 21
- 238000012986 modification Methods 0.000 description 15
- 230000004048 modification Effects 0.000 description 15
- 238000004891 communication Methods 0.000 description 14
- 238000010586 diagram Methods 0.000 description 11
- 230000008569 process Effects 0.000 description 9
- 230000008707 rearrangement Effects 0.000 description 6
- 238000000605 extraction Methods 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 230000002776 aggregation Effects 0.000 description 2
- 238000004220 aggregation Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000001105 regulatory effect Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 238000010276 construction Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Abstract
Description
この同義語検出装置は、文書データに対して形態素解析及び構文解析を行って、複合名詞を検出するとともに、複合名詞に含まれる単語及び連続する単語間の区切りを特定し、検出された複合名詞のペアを同義語の候補とする。そしてこの同義語検出装置は、そのペアに含まれる複合名詞のうちの一方について、その複合名詞に含まれる単語の順序を並び替えることで、その組の他方の複合名詞を作成できる場合に、そのペアに含まれる二つの複合名詞を互いに対する同義語と判定する。
また、通信インターフェース部4は、処理部6から受け取った同義語を表す情報を、通信ネットワークを介して同義語検出装置1と接続された他の装置へ出力してもよい。
記憶部5は、同義語検出処理に用いられるデータとして、例えば、形態素ごとの表現及び品詞情報を表す形態素辞書、及び、検出された同義語が登録される同義表現辞書を記憶する。
処理部6が有するこれらの各部は、例えば、処理部6が有するプロセッサ上で動作するコンピュータプログラムにより実現される機能モジュールである。あるいは、処理部6が有するこれらの各部は、その各部の機能を実現する一つまたは複数の集積回路として同義語検出装置1に実装されてもよい。
複合名詞検出部11は、検出した各複合名詞、及び、その複合名詞に含まれる各単語及び連続する単語間の区切りを表す情報を、同義語候補選択部12へ通知する。
同義語候補選択部12は、同義語候補となる複合名詞のペアを同義語判定部13へ通知する。
複合名詞検出部11は、操作部2を介して指定された文書データに含まれる文字列を抽出する(ステップS101)。そして複合名詞検出部11は、その文字列に対して形態素解析を行って形態素単位で分割するとともに、構文解析を行って形態素間の係り受けを求める。これにより、複合名詞検出部11は、その文字列中に含まれる複合名詞を検出し、かつ、検出した複合名詞ごとに、複合名詞に含まれる単語及び連続する単語間の区切りを特定する(ステップS102)。
これにより、同義語検出装置1は、ユーザに、文書中で同義語がどのように使用されているのかを容易に理解させることができる。
(付記1)
文書データに含まれる文字列に対して形態素解析を実行することで、複合名詞を検出し、検出した複合名詞ごとに、当該複合名詞に含まれる単語及び単語間の区切りを特定する複合名詞検出部と、
前記検出した複合名詞から選択した二つの複合名詞を同義語候補とする同義語候補選択部と、
前記同義語候補に含まれる前記二つの複合名詞の一方に含まれる単語の順序を並び替えて得られる文字列が、前記同義語候補に含まれる前記二つの複合名詞の他方と一致する場合、前記二つの複合名詞を互いに対する同義語と判定する同義語判定部と、
を有する同義語検出装置。
(付記2)
前記同義語判定部は、前記同義語候補に含まれる前記二つの複合名詞のそれぞれについて、当該複合名詞に含まれる単語及び単語間の区切りの確からしさを表す評価値を算出し、前記評価値が所定の閾値以上となる複合名詞について単語の順序を並び替えて前記二つの複合名詞の他方と一致するか否か判定し、一方、前記評価値が前記所定の閾値未満となる複合名詞について単語の順序を並び替えない、付記1に記載の同義語検出装置。
(付記3)
前記同義語判定部は、前記同義語候補に含まれる前記二つの複合名詞のそれぞれについて、当該複合名詞に含まれる単語の並び順に応じた出現確率に応じて前記評価値を算出する、付記2に記載の同義語検出装置。
(付記4)
前記同義語判定部は、前記同義語候補に含まれる前記二つの複合名詞のそれぞれについて、当該複合名詞に含まれる単語の並び順に応じた前記出現確率が高いほど、前記評価値を高くする、付記3に記載の同義語検出装置。
(付記5)
前記同義語候補選択部は、前記検出した複合名詞から選択した二つの前記複合名詞間の編集距離に基づく距離評価値を算出し、当該距離評価値が第2の閾値以下となる場合、当該二つの前記複合名詞を前記同義語候補とする、付記1〜4の何れかに記載の同義語検出装置。
(付記6)
前記同義語候補選択部は、前記検出した複合名詞から選択した前記二つの前記複合名詞間の編集距離が長いほど前記距離評価値を大きくする、付記5に記載の同義語検出装置。
(付記7)
前記同義語候補選択部は、前記検出した複合名詞から選択した前記二つの前記複合名詞のそれぞれに含まれる単語の数が少ないほど前記距離評価値を大きくする、付記5に記載の同義語検出装置。
(付記8)
単語ごとに、当該単語と同一の意味を持ち、かつ、異なる綴りを持つ同義単語を表す同義単語辞書を記憶する記憶部をさらに有し、
前記同義語候補選択部は、前記検出した複合名詞から選択した前記二つの複合名詞の一方について、前記同義単語辞書を参照して、当該複合名詞に含まれる単語を前記同義単語で置換して得られる複合名詞を作成し、前記選択した複合名詞の一方及び作成した複合名詞のそれぞれについて、前記選択した複合名詞の他方との前記距離評価値を算出し、前記選択した複合名詞の一方及び作成した複合名詞のうち、前記距離評価値が最小となる複合名詞と前記選択した複合名詞の他方との組を前記同義語候補とする、付記5〜7の何れかに記載の同義語検出装置。
(付記9)
前記文書データにおいて、前記同義語と判定された前記二つの複合名詞の一方を、前記二つの複合名詞の他方で置換する書き換え部をさらに有する、付記1〜8の何れかに記載の同義語検出装置。
(付記10)
前記書き換え部は、前記同義語と判定された前記二つの複合名詞のうち、前記文書データ中での出現頻度が低い方の複合名詞を、前記文書データ中での出現頻度が高い方の複合名詞で置換する、付記9に記載の同義語検出装置。
(付記11)
文書データに含まれる複合名詞を検出し、検出した複合名詞ごとに、当該複合名詞に含まれる単語及び単語間の区切りを特定し、
前記検出した複合名詞のペアを同義語候補とし、
前記同義語候補に含まれる複合名詞の一方について、当該複合名詞に含まれる単語の順序を並び替えて得られる文字列が、前記同義語候補に含まれる複合名詞の他方と一致する場合、前記同義語候補に含まれる複合名詞のペアを同義語と判定する、
ことを含む同義語検出方法。
(付記12)
文書データに含まれる複合名詞を検出し、検出した複合名詞ごとに、当該複合名詞に含まれる単語及び単語間の区切りを特定し、
前記検出した複合名詞のペアを同義語候補とし、
前記同義語候補に含まれる複合名詞の一方について、当該複合名詞に含まれる単語の順序を並び替えて得られる文字列が、前記同義語候補に含まれる複合名詞の他方と一致する場合、前記同義語候補に含まれる複合名詞のペアを同義語と判定する、
ことをコンピュータに実行させるための同義語検出用コンピュータプログラム。
2 操作部
3 表示部
4 通信インターフェース部
5 記憶部
6、61 処理部
11 複合名詞検出部
12 同義語候補選択部
13 同義語判定部
14 書き換え部
Claims (7)
- 文書データに含まれる文字列に対して形態素解析を実行することで、複合名詞を検出し、検出した複合名詞ごとに、当該複合名詞に含まれる単語及び単語間の区切りを特定する複合名詞検出部と、
前記検出した複合名詞から選択した二つの複合名詞を同義語候補とする同義語候補選択部と、
前記同義語候補に含まれる前記二つの複合名詞の一方に含まれる単語の順序を並び替えて得られる文字列が、前記同義語候補に含まれる前記二つの複合名詞の他方と一致する場合、前記二つの複合名詞を互いに対する同義語と判定する同義語判定部と、
を有する同義語検出装置。 - 前記同義語判定部は、前記同義語候補に含まれる前記二つの複合名詞のそれぞれについて、当該複合名詞に含まれる単語及び単語間の区切りの確からしさを表す評価値を算出し、前記評価値が所定の閾値以上となる複合名詞について単語の順序を並び替えて前記二つの複合名詞の他方と一致するか否か判定し、一方、前記評価値が前記所定の閾値未満となる複合名詞について単語の順序を並び替えない、請求項1に記載の同義語検出装置。
- 前記同義語候補選択部は、前記検出した複合名詞から選択した二つの前記複合名詞間の編集距離に基づく距離評価値を算出し、当該距離評価値が第2の閾値以下となる場合、当該二つの前記複合名詞を前記同義語候補とする、請求項1または2に記載の同義語検出装置。
- 単語ごとに、当該単語と同一の意味を持ち、かつ、異なる綴りを持つ同義単語を表す同義単語辞書を記憶する記憶部をさらに有し、
前記同義語候補選択部は、前記検出した複合名詞から選択した前記二つの複合名詞の一方について、前記同義単語辞書を参照して、当該複合名詞に含まれる単語を前記同義単語で置換して得られる複合名詞を作成し、前記選択した複合名詞の一方及び作成した複合名詞のそれぞれについて、前記選択した複合名詞の他方との前記距離評価値を算出し、前記選択した複合名詞の一方及び作成した複合名詞のうち、前記距離評価値が最小となる複合名詞と前記選択した複合名詞の他方との組を前記同義語候補とする、請求項3に記載の同義語検出装置。 - 前記文書データにおいて、前記同義語と判定された前記二つの複合名詞の一方を、前記二つの複合名詞の他方で置換する書き換え部をさらに有する、請求項1〜4の何れか一項に記載の同義語検出装置。
- 文書データに含まれる複合名詞を検出し、検出した複合名詞ごとに、当該複合名詞に含まれる単語及び単語間の区切りを特定し、
前記検出した複合名詞のペアを同義語候補とし、
前記同義語候補に含まれる複合名詞の一方について、当該複合名詞に含まれる単語の順序を並び替えて得られる文字列が、前記同義語候補に含まれる複合名詞の他方と一致する場合、前記同義語候補に含まれる複合名詞のペアを同義語と判定する、
ことを含む同義語検出方法。 - 文書データに含まれる複合名詞を検出し、検出した複合名詞ごとに、当該複合名詞に含まれる単語及び単語間の区切りを特定し、
前記検出した複合名詞のペアを同義語候補とし、
前記同義語候補に含まれる複合名詞の一方について、当該複合名詞に含まれる単語の順序を並び替えて得られる文字列が、前記同義語候補に含まれる複合名詞の他方と一致する場合、前記同義語候補に含まれる複合名詞のペアを同義語と判定する、
ことをコンピュータに実行させるための同義語検出用コンピュータプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016038100A JP6623840B2 (ja) | 2016-02-29 | 2016-02-29 | 同義語検出装置、同義語検出方法及び同義語検出用コンピュータプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016038100A JP6623840B2 (ja) | 2016-02-29 | 2016-02-29 | 同義語検出装置、同義語検出方法及び同義語検出用コンピュータプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2017156890A true JP2017156890A (ja) | 2017-09-07 |
JP6623840B2 JP6623840B2 (ja) | 2019-12-25 |
Family
ID=59810219
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2016038100A Active JP6623840B2 (ja) | 2016-02-29 | 2016-02-29 | 同義語検出装置、同義語検出方法及び同義語検出用コンピュータプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6623840B2 (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110555203A (zh) * | 2018-05-31 | 2019-12-10 | 北京百度网讯科技有限公司 | 文本复述方法、装置、服务器及存储介质 |
CN111428476A (zh) * | 2019-01-09 | 2020-07-17 | 百度在线网络技术(北京)有限公司 | 同义词生成方法、装置、电子设备及存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001325292A (ja) * | 2000-05-12 | 2001-11-22 | Nec Soft Ltd | 複合語の類似度判定システム、類似度判定方法及び記録媒体 |
JP2012256197A (ja) * | 2011-06-08 | 2012-12-27 | Toshiba Corp | 表記ゆれ検出装置及び表記ゆれ検出プログラム |
-
2016
- 2016-02-29 JP JP2016038100A patent/JP6623840B2/ja active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001325292A (ja) * | 2000-05-12 | 2001-11-22 | Nec Soft Ltd | 複合語の類似度判定システム、類似度判定方法及び記録媒体 |
JP2012256197A (ja) * | 2011-06-08 | 2012-12-27 | Toshiba Corp | 表記ゆれ検出装置及び表記ゆれ検出プログラム |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110555203A (zh) * | 2018-05-31 | 2019-12-10 | 北京百度网讯科技有限公司 | 文本复述方法、装置、服务器及存储介质 |
CN111428476A (zh) * | 2019-01-09 | 2020-07-17 | 百度在线网络技术(北京)有限公司 | 同义词生成方法、装置、电子设备及存储介质 |
CN111428476B (zh) * | 2019-01-09 | 2023-03-31 | 百度在线网络技术(北京)有限公司 | 同义词生成方法、装置、电子设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
JP6623840B2 (ja) | 2019-12-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11475209B2 (en) | Device, system, and method for extracting named entities from sectioned documents | |
US20230142217A1 (en) | Model Training Method, Electronic Device, And Storage Medium | |
US11256856B2 (en) | Method, device, and system, for identifying data elements in data structures | |
AU2016269573B2 (en) | Input entity identification from natural language text information | |
JP5379155B2 (ja) | Cjk名前検出 | |
CN109783796B (zh) | 预测文本内容中的样式破坏 | |
US8429141B2 (en) | Linguistically enhanced email detector | |
JP2020126493A (ja) | 対訳処理方法および対訳処理プログラム | |
US11468346B2 (en) | Identifying sequence headings in a document | |
Tufiş et al. | DIAC+: A professional diacritics recovering system | |
CN109074355B (zh) | 用于表意字符分析的方法和介质 | |
JP5097802B2 (ja) | ローマ字変換を用いる日本語自動推薦システムおよび方法 | |
JP6623840B2 (ja) | 同義語検出装置、同義語検出方法及び同義語検出用コンピュータプログラム | |
JP5447368B2 (ja) | 新規事例生成装置、新規事例生成方法及び新規事例生成用プログラム | |
JP2013109364A (ja) | Cjk名前検出 | |
CN115034209A (zh) | 文本分析方法、装置、电子设备以及存储介质 | |
CN114970516A (zh) | 数据增强方法及装置、存储介质、电子设备 | |
CN108304367A (zh) | 分词方法及装置 | |
CN114528824A (zh) | 文本纠错方法、装置、电子设备及存储介质 | |
JP5326781B2 (ja) | 抽出規則作成システム、抽出規則作成方法及び抽出規則作成プログラム | |
Murawaki et al. | Online Japanese Unknown Morpheme Detection using Orthographic Variation. | |
CN111259159A (zh) | 数据挖掘方法、装置和计算机可读存储介质 | |
JP2014235584A (ja) | 文書分析システム、文書分析方法およびプログラム | |
Benko | Language Code Switching in Web Corpora. | |
JP3939264B2 (ja) | 形態素解析装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20181112 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20190531 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20190625 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20190814 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20190827 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20191007 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20191029 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20191111 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6623840 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |