JP6623840B2 - 同義語検出装置、同義語検出方法及び同義語検出用コンピュータプログラム - Google Patents
同義語検出装置、同義語検出方法及び同義語検出用コンピュータプログラム Download PDFInfo
- Publication number
- JP6623840B2 JP6623840B2 JP2016038100A JP2016038100A JP6623840B2 JP 6623840 B2 JP6623840 B2 JP 6623840B2 JP 2016038100 A JP2016038100 A JP 2016038100A JP 2016038100 A JP2016038100 A JP 2016038100A JP 6623840 B2 JP6623840 B2 JP 6623840B2
- Authority
- JP
- Japan
- Prior art keywords
- compound
- synonym
- nouns
- noun
- compound noun
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Machine Translation (AREA)
Description
この同義語検出装置は、文書データに対して形態素解析及び構文解析を行って、複合名詞を検出するとともに、複合名詞に含まれる単語及び連続する単語間の区切りを特定し、検出された複合名詞のペアを同義語の候補とする。そしてこの同義語検出装置は、そのペアに含まれる複合名詞のうちの一方について、その複合名詞に含まれる単語の順序を並び替えることで、その組の他方の複合名詞を作成できる場合に、そのペアに含まれる二つの複合名詞を互いに対する同義語と判定する。
また、通信インターフェース部4は、処理部6から受け取った同義語を表す情報を、通信ネットワークを介して同義語検出装置1と接続された他の装置へ出力してもよい。
記憶部5は、同義語検出処理に用いられるデータとして、例えば、形態素ごとの表現及び品詞情報を表す形態素辞書、及び、検出された同義語が登録される同義表現辞書を記憶する。
処理部6が有するこれらの各部は、例えば、処理部6が有するプロセッサ上で動作するコンピュータプログラムにより実現される機能モジュールである。あるいは、処理部6が有するこれらの各部は、その各部の機能を実現する一つまたは複数の集積回路として同義語検出装置1に実装されてもよい。
複合名詞検出部11は、検出した各複合名詞、及び、その複合名詞に含まれる各単語及び連続する単語間の区切りを表す情報を、同義語候補選択部12へ通知する。
同義語候補選択部12は、同義語候補となる複合名詞のペアを同義語判定部13へ通知する。
複合名詞検出部11は、操作部2を介して指定された文書データに含まれる文字列を抽出する(ステップS101)。そして複合名詞検出部11は、その文字列に対して形態素解析を行って形態素単位で分割するとともに、構文解析を行って形態素間の係り受けを求める。これにより、複合名詞検出部11は、その文字列中に含まれる複合名詞を検出し、かつ、検出した複合名詞ごとに、複合名詞に含まれる単語及び連続する単語間の区切りを特定する(ステップS102)。
これにより、同義語検出装置1は、ユーザに、文書中で同義語がどのように使用されているのかを容易に理解させることができる。
(付記1)
文書データに含まれる文字列に対して形態素解析を実行することで、複合名詞を検出し、検出した複合名詞ごとに、当該複合名詞に含まれる単語及び単語間の区切りを特定する複合名詞検出部と、
前記検出した複合名詞から選択した二つの複合名詞を同義語候補とする同義語候補選択部と、
前記同義語候補に含まれる前記二つの複合名詞の一方に含まれる単語の順序を並び替えて得られる文字列が、前記同義語候補に含まれる前記二つの複合名詞の他方と一致する場合、前記二つの複合名詞を互いに対する同義語と判定する同義語判定部と、
を有する同義語検出装置。
(付記2)
前記同義語判定部は、前記同義語候補に含まれる前記二つの複合名詞のそれぞれについて、当該複合名詞に含まれる単語及び単語間の区切りの確からしさを表す評価値を算出し、前記評価値が所定の閾値以上となる複合名詞について単語の順序を並び替えて前記二つの複合名詞の他方と一致するか否か判定し、一方、前記評価値が前記所定の閾値未満となる複合名詞について単語の順序を並び替えない、付記1に記載の同義語検出装置。
(付記3)
前記同義語判定部は、前記同義語候補に含まれる前記二つの複合名詞のそれぞれについて、当該複合名詞に含まれる単語の並び順に応じた出現確率に応じて前記評価値を算出する、付記2に記載の同義語検出装置。
(付記4)
前記同義語判定部は、前記同義語候補に含まれる前記二つの複合名詞のそれぞれについて、当該複合名詞に含まれる単語の並び順に応じた前記出現確率が高いほど、前記評価値を高くする、付記3に記載の同義語検出装置。
(付記5)
前記同義語候補選択部は、前記検出した複合名詞から選択した二つの前記複合名詞間の編集距離に基づく距離評価値を算出し、当該距離評価値が第2の閾値以下となる場合、当該二つの前記複合名詞を前記同義語候補とする、付記1〜4の何れかに記載の同義語検出装置。
(付記6)
前記同義語候補選択部は、前記検出した複合名詞から選択した前記二つの前記複合名詞間の編集距離が長いほど前記距離評価値を大きくする、付記5に記載の同義語検出装置。
(付記7)
前記同義語候補選択部は、前記検出した複合名詞から選択した前記二つの前記複合名詞のそれぞれに含まれる単語の数が少ないほど前記距離評価値を大きくする、付記5に記載の同義語検出装置。
(付記8)
単語ごとに、当該単語と同一の意味を持ち、かつ、異なる綴りを持つ同義単語を表す同義単語辞書を記憶する記憶部をさらに有し、
前記同義語候補選択部は、前記検出した複合名詞から選択した前記二つの複合名詞の一方について、前記同義単語辞書を参照して、当該複合名詞に含まれる単語を前記同義単語で置換して得られる複合名詞を作成し、前記選択した複合名詞の一方及び作成した複合名詞のそれぞれについて、前記選択した複合名詞の他方との前記距離評価値を算出し、前記選択した複合名詞の一方及び作成した複合名詞のうち、前記距離評価値が最小となる複合名詞と前記選択した複合名詞の他方との組を前記同義語候補とする、付記5〜7の何れかに記載の同義語検出装置。
(付記9)
前記文書データにおいて、前記同義語と判定された前記二つの複合名詞の一方を、前記二つの複合名詞の他方で置換する書き換え部をさらに有する、付記1〜8の何れかに記載の同義語検出装置。
(付記10)
前記書き換え部は、前記同義語と判定された前記二つの複合名詞のうち、前記文書データ中での出現頻度が低い方の複合名詞を、前記文書データ中での出現頻度が高い方の複合名詞で置換する、付記9に記載の同義語検出装置。
(付記11)
文書データに含まれる複合名詞を検出し、検出した複合名詞ごとに、当該複合名詞に含まれる単語及び単語間の区切りを特定し、
前記検出した複合名詞のペアを同義語候補とし、
前記同義語候補に含まれる複合名詞の一方について、当該複合名詞に含まれる単語の順序を並び替えて得られる文字列が、前記同義語候補に含まれる複合名詞の他方と一致する場合、前記同義語候補に含まれる複合名詞のペアを同義語と判定する、
ことを含む同義語検出方法。
(付記12)
文書データに含まれる複合名詞を検出し、検出した複合名詞ごとに、当該複合名詞に含まれる単語及び単語間の区切りを特定し、
前記検出した複合名詞のペアを同義語候補とし、
前記同義語候補に含まれる複合名詞の一方について、当該複合名詞に含まれる単語の順序を並び替えて得られる文字列が、前記同義語候補に含まれる複合名詞の他方と一致する場合、前記同義語候補に含まれる複合名詞のペアを同義語と判定する、
ことをコンピュータに実行させるための同義語検出用コンピュータプログラム。
2 操作部
3 表示部
4 通信インターフェース部
5 記憶部
6、61 処理部
11 複合名詞検出部
12 同義語候補選択部
13 同義語判定部
14 書き換え部
Claims (6)
- 文書データに含まれる文字列に対して形態素解析を実行することで、複合名詞を検出し、検出した複合名詞ごとに、当該複合名詞に含まれる単語及び単語間の区切りを特定する複合名詞検出部と、
前記検出した複合名詞から選択した二つの複合名詞を同義語候補とする同義語候補選択部と、
前記同義語候補に含まれる前記二つの複合名詞の一方に含まれる単語の順序を並び替えて得られる文字列が、前記同義語候補に含まれる前記二つの複合名詞の他方と一致する場合、前記二つの複合名詞を互いに対する同義語と判定する同義語判定部と、
を有し、
前記同義語判定部は、前記同義語候補に含まれる前記二つの複合名詞のそれぞれについて、当該複合名詞に含まれる単語及び単語間の区切りの確からしさを表す評価値を算出し、前記評価値が所定の閾値以上となる複合名詞について単語の順序を並び替えて前記二つの複合名詞の他方と一致するか否か判定し、一方、前記評価値が前記所定の閾値未満となる複合名詞について単語の順序を並び替えない
同義語検出装置。 - 前記同義語候補選択部は、前記検出した複合名詞から選択した二つの前記複合名詞間の編集距離に基づく距離評価値を算出し、当該距離評価値が第2の閾値以下となる場合、当該二つの前記複合名詞を前記同義語候補とする、請求項1に記載の同義語検出装置。
- 単語ごとに、当該単語と同一の意味を持ち、かつ、異なる綴りを持つ同義単語を表す同義単語辞書を記憶する記憶部をさらに有し、
前記同義語候補選択部は、前記検出した複合名詞から選択した前記二つの複合名詞の一方について、前記同義単語辞書を参照して、当該複合名詞に含まれる単語を前記同義単語で置換して得られる複合名詞を作成し、前記選択した複合名詞の一方及び作成した複合名詞のそれぞれについて、前記選択した複合名詞の他方との前記距離評価値を算出し、前記選択した複合名詞の一方及び作成した複合名詞のうち、前記距離評価値が最小となる複合名詞と前記選択した複合名詞の他方との組を前記同義語候補とする、請求項2に記載の同義語検出装置。 - 前記文書データにおいて、前記同義語と判定された前記二つの複合名詞の一方を、前記二つの複合名詞の他方で置換する書き換え部をさらに有する、請求項1〜3の何れか一項に記載の同義語検出装置。
- コンピュータが、文書データに含まれる複合名詞を検出し、検出した複合名詞ごとに、当該複合名詞に含まれる単語及び単語間の区切りを特定し、
前記コンピュータが、前記検出した複合名詞のペアを同義語候補とし、
前記コンピュータが、前記同義語候補に含まれる複合名詞の一方について、当該複合名詞に含まれる単語の順序を並び替えて得られる文字列が、前記同義語候補に含まれる複合名詞の他方と一致する場合、前記同義語候補に含まれる複合名詞のペアを同義語と判定する、
ことを含み、
前記同義語と判定することは、前記同義語候補に含まれる前記複合名詞のそれぞれについて、当該複合名詞に含まれる単語及び単語間の区切りの確からしさを表す評価値を算出し、前記評価値が所定の閾値以上となる複合名詞について単語の順序を並び替えて前記同義語候補に含まれる複合名詞の他方と一致するか否か判定し、一方、前記評価値が前記所定の閾値未満となる複合名詞について単語の順序を並び替えないことを含む
同義語検出方法。 - 文書データに含まれる複合名詞を検出し、検出した複合名詞ごとに、当該複合名詞に含まれる単語及び単語間の区切りを特定し、
前記検出した複合名詞のペアを同義語候補とし、
前記同義語候補に含まれる複合名詞の一方について、当該複合名詞に含まれる単語の順序を並び替えて得られる文字列が、前記同義語候補に含まれる複合名詞の他方と一致する場合、前記同義語候補に含まれる複合名詞のペアを同義語と判定する、
ことをコンピュータに実行させ、
前記同義語と判定することは、前記同義語候補に含まれる前記複合名詞のそれぞれについて、当該複合名詞に含まれる単語及び単語間の区切りの確からしさを表す評価値を算出し、前記評価値が所定の閾値以上となる複合名詞について単語の順序を並び替えて前記同義語候補に含まれる複合名詞の他方と一致するか否か判定し、一方、前記評価値が前記所定の閾値未満となる複合名詞について単語の順序を並び替えないことを含む
同義語検出用コンピュータプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016038100A JP6623840B2 (ja) | 2016-02-29 | 2016-02-29 | 同義語検出装置、同義語検出方法及び同義語検出用コンピュータプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016038100A JP6623840B2 (ja) | 2016-02-29 | 2016-02-29 | 同義語検出装置、同義語検出方法及び同義語検出用コンピュータプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2017156890A JP2017156890A (ja) | 2017-09-07 |
JP6623840B2 true JP6623840B2 (ja) | 2019-12-25 |
Family
ID=59810219
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2016038100A Active JP6623840B2 (ja) | 2016-02-29 | 2016-02-29 | 同義語検出装置、同義語検出方法及び同義語検出用コンピュータプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6623840B2 (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110555203B (zh) * | 2018-05-31 | 2023-05-30 | 北京百度网讯科技有限公司 | 文本复述方法、装置、服务器及存储介质 |
CN111428476B (zh) * | 2019-01-09 | 2023-03-31 | 百度在线网络技术(北京)有限公司 | 同义词生成方法、装置、电子设备及存储介质 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001325292A (ja) * | 2000-05-12 | 2001-11-22 | Nec Soft Ltd | 複合語の類似度判定システム、類似度判定方法及び記録媒体 |
JP2012256197A (ja) * | 2011-06-08 | 2012-12-27 | Toshiba Corp | 表記ゆれ検出装置及び表記ゆれ検出プログラム |
-
2016
- 2016-02-29 JP JP2016038100A patent/JP6623840B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2017156890A (ja) | 2017-09-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11475209B2 (en) | Device, system, and method for extracting named entities from sectioned documents | |
US9575955B2 (en) | Method of detecting grammatical error, error detecting apparatus for the method, and computer-readable recording medium storing the method | |
KR101136007B1 (ko) | 문서 감성 분석 시스템 및 그 방법 | |
KR100999488B1 (ko) | 문서 표절 탐색 방법 및 장치 | |
US8429141B2 (en) | Linguistically enhanced email detector | |
WO2005064490A1 (en) | System for recognising and classifying named entities | |
US20220067290A1 (en) | Automatically identifying multi-word expressions | |
US11468346B2 (en) | Identifying sequence headings in a document | |
Wong et al. | iSentenizer‐μ: Multilingual Sentence Boundary Detection Model | |
JP5097802B2 (ja) | ローマ字変換を用いる日本語自動推薦システムおよび方法 | |
JP6623840B2 (ja) | 同義語検出装置、同義語検出方法及び同義語検出用コンピュータプログラム | |
JP2009295052A (ja) | 複合語の区切り位置を推定する複合語区切り推定装置、方法、およびプログラム | |
JP5447368B2 (ja) | 新規事例生成装置、新規事例生成方法及び新規事例生成用プログラム | |
JP5326781B2 (ja) | 抽出規則作成システム、抽出規則作成方法及び抽出規則作成プログラム | |
CN113330430A (zh) | 语句结构向量化装置、语句结构向量化方法及语句结构向量化程序 | |
Benko | Language Code Switching in Web Corpora. | |
JP6303508B2 (ja) | 文書分析装置、文書分析システム、文書分析方法およびプログラム | |
JP3939264B2 (ja) | 形態素解析装置 | |
RU2769427C1 (ru) | Способ автоматизированного анализа текста и подбора релевантных рекомендаций по улучшению его читабельности | |
Murawaki et al. | Online Japanese Unknown Morpheme Detection using Orthographic Variation. | |
JP5348699B2 (ja) | データ分類システム、データ分類方法およびプログラム | |
CN116225933A (zh) | 程序代码审查方法及审查装置 | |
Kovács | Efficient dictionary matching of character stream | |
CN117454880A (zh) | 一种网页文本校验方法、装置、设备及存储介质 | |
CN112528635A (zh) | 检索装置、检索方法、及记录介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20181112 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20190531 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20190625 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20190814 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20190827 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20191007 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20191029 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20191111 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6623840 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |