JP2017191357A - 単語判定装置 - Google Patents
単語判定装置 Download PDFInfo
- Publication number
- JP2017191357A JP2017191357A JP2016078722A JP2016078722A JP2017191357A JP 2017191357 A JP2017191357 A JP 2017191357A JP 2016078722 A JP2016078722 A JP 2016078722A JP 2016078722 A JP2016078722 A JP 2016078722A JP 2017191357 A JP2017191357 A JP 2017191357A
- Authority
- JP
- Japan
- Prior art keywords
- word
- determination
- text
- feature
- similarity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
テキストa:「日本三景の一つである松島を観光した。」
テキストb:「松島で花見をした。」
テキストc:「松島の桜が満開だ。」
判定部16は、類似度Aと予め定められた閾値d1(第1閾値)とを比較するとともに投稿数Bと予め定められた閾値d2(第2閾値)とを比較し、これらの比較結果に基づいて判定対象の単語「桜」を特定の場所“松島”に関連付けるか否かを判定する。具体的には、判定部16は、類似度Aが閾値d1以上であり且つ投稿数Bが閾値d2以上であるか否かを判定する。ここで、閾値d1,d2は、例えばオペレータによって設定される。判定部16は、類似度Aが閾値d1以上であり且つ投稿数Bが閾値d2以上である場合(「A≧d1且つB≧d2」が成立する場合)、判定対象の単語「桜」を“松島”に関連付けると決定し、当該単語「桜」を“松島”の拡張特徴語として特徴語記憶部12に記憶させる。
判定部16は、類似度A及び投稿数Bから1つの評価値を生成し、当該評価値と予め定められた閾値d3(第3閾値)とを比較し、その比較結果に基づいて判定対象の単語「桜」を特定の場所“松島”に関連付けるか否かを判定する。一例として、判定部16は、下記式(2)の左辺を評価として生成し、当該評価値が閾値d3以上であるか否かを判定する。ここで、tは0から1までの間で任意に決定されるパラメータである。パラメータt及び閾値d3は、例えばオペレータによって設定される。判定部16は、評価値が閾値d3以上である場合、判定対象の単語「桜」を“松島”に関連付けると決定し、当該単語「桜」を“松島”の拡張特徴語として特徴語記憶部12に記憶させる。
A×t+B×(1−t)≧d3 …(2)
Claims (5)
- 予め定められた特定の場所に関連付けられる単語である特徴語を取得する特徴語取得手段と、
判定対象の単語を取得する単語取得手段と、
前記判定対象の単語が含まれるテキスト及び前記特徴語が含まれるテキストを少なくとも含む複数のテキストを学習データとして用いた学習を実行し、前記学習の結果に基づいて前記判定対象の単語と前記特徴語との類似度を算出する類似度算出手段と、
前記特定の場所に対応するエリアから投稿され、且つ、前記判定対象の単語が含まれる投稿テキストの数を示す投稿数を取得する投稿数取得手段と、
前記類似度算出手段により算出された類似度と前記投稿数取得手段により取得された投稿数とに基づいて、前記判定対象の単語を前記特定の場所に関連付けるか否かを判定する判定手段と、
を備える単語判定装置。 - 前記類似度算出手段は、前記判定対象の単語及び前記特徴語の各々をベクトルに変換し、変換されたベクトル同士のコサイン類似度を前記類似度として算出する、
請求項1に記載の単語判定装置。 - 前記判定手段は、前記類似度と予め定められた第1閾値とを比較し、前記投稿数と予め定められた第2閾値とを比較し、これらの比較結果に基づいて前記判定対象の単語を前記特定の場所に関連付けるか否かを判定する、
請求項1又は2に記載の単語判定装置。 - 前記判定手段は、前記類似度及び前記投稿数から1つの評価値を生成し、前記評価値と予め定められた第3閾値とを比較し、その比較結果に基づいて前記判定対象の単語を前記特定の場所に関連付けるか否かを判定する、
請求項1又は2に記載の単語判定装置。 - 前記特定の場所を意味する可能性がある地名表記が含まれるテキストを取得し、前記テキストに前記特徴語又は前記判定手段により前記特定の場所に関連付けると決定された単語である拡張特徴語が含まれているか否かを判定し、前記テキストに前記特徴語又は前記拡張特徴語が含まれていると判定された場合に、前記地名表記が前記テキスト中で前記特定の場所を意味すると判定するテキスト判定手段を更に備える、
請求項1〜4のいずれか一項に記載の単語判定装置。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2016078722A JP6662689B2 (ja) | 2016-04-11 | 2016-04-11 | 単語判定装置 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2016078722A JP6662689B2 (ja) | 2016-04-11 | 2016-04-11 | 単語判定装置 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2017191357A true JP2017191357A (ja) | 2017-10-19 |
| JP6662689B2 JP6662689B2 (ja) | 2020-03-11 |
Family
ID=60085294
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2016078722A Active JP6662689B2 (ja) | 2016-04-11 | 2016-04-11 | 単語判定装置 |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP6662689B2 (ja) |
Cited By (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2019149145A (ja) * | 2018-02-27 | 2019-09-05 | 株式会社 ミックウェア | 情報検索システム |
| US11216499B2 (en) | 2018-02-27 | 2022-01-04 | Micware Co., Ltd. | Information retrieval apparatus, information retrieval system, and information retrieval method |
| JP2022532451A (ja) * | 2019-10-28 | 2022-07-14 | 南京師範大学 | 百科知識ベースと単語の埋め込みに基づく中国語地名語義の曖昧性解消方法 |
| CN109885813B (zh) * | 2019-02-18 | 2023-04-28 | 武汉瓯越网视有限公司 | 一种基于词语覆盖度的文本相似度的运算方法及系统 |
Citations (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2010198281A (ja) * | 2009-02-25 | 2010-09-09 | Hyogo Prefecture | 情報処理装置、情報処理方法、およびプログラム |
| JP2015007922A (ja) * | 2013-06-25 | 2015-01-15 | キヤノンマーケティングジャパン株式会社 | 情報処理装置、情報処理方法、プログラム |
| JP2015049813A (ja) * | 2013-09-03 | 2015-03-16 | Kddi株式会社 | 情報提供システム、プログラムおよび情報提供方法 |
-
2016
- 2016-04-11 JP JP2016078722A patent/JP6662689B2/ja active Active
Patent Citations (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2010198281A (ja) * | 2009-02-25 | 2010-09-09 | Hyogo Prefecture | 情報処理装置、情報処理方法、およびプログラム |
| JP2015007922A (ja) * | 2013-06-25 | 2015-01-15 | キヤノンマーケティングジャパン株式会社 | 情報処理装置、情報処理方法、プログラム |
| JP2015049813A (ja) * | 2013-09-03 | 2015-03-16 | Kddi株式会社 | 情報提供システム、プログラムおよび情報提供方法 |
Non-Patent Citations (2)
| Title |
|---|
| 落合桂一: "場所に関する特徴語を利用したリアルタイム地名曖昧性解消手法", 第12回情報科学技術フォーラム発表予稿集, JPN6020000657, 4 September 2013 (2013-09-04), JP, pages 169 - 170, ISSN: 0004192209 * |
| 長谷川馨亮: "Twitterからの地域特徴語辞書の構築とその観光情報検索への応用", 第6回データ工学と情報マネジメントに関するフォーラム, vol. B3-4, JPN6020000658, 3 May 2014 (2014-05-03), JP, pages 1 - 8, ISSN: 0004192210 * |
Cited By (6)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2019149145A (ja) * | 2018-02-27 | 2019-09-05 | 株式会社 ミックウェア | 情報検索システム |
| US11216499B2 (en) | 2018-02-27 | 2022-01-04 | Micware Co., Ltd. | Information retrieval apparatus, information retrieval system, and information retrieval method |
| JP7023821B2 (ja) | 2018-02-27 | 2022-02-22 | 株式会社 ミックウェア | 情報検索システム |
| CN109885813B (zh) * | 2019-02-18 | 2023-04-28 | 武汉瓯越网视有限公司 | 一种基于词语覆盖度的文本相似度的运算方法及系统 |
| JP2022532451A (ja) * | 2019-10-28 | 2022-07-14 | 南京師範大学 | 百科知識ベースと単語の埋め込みに基づく中国語地名語義の曖昧性解消方法 |
| JP7228946B2 (ja) | 2019-10-28 | 2023-02-27 | 南京師範大学 | 百科知識ベースと単語の埋め込みに基づく中国語地名語義の曖昧性解消方法 |
Also Published As
| Publication number | Publication date |
|---|---|
| JP6662689B2 (ja) | 2020-03-11 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JP7182585B2 (ja) | プログラム | |
| US11216499B2 (en) | Information retrieval apparatus, information retrieval system, and information retrieval method | |
| JP5534007B2 (ja) | 特徴点検出システム、特徴点検出方法、及びプログラム | |
| JP5371480B2 (ja) | 情報処理装置、情報処理方法、およびプログラム | |
| JP5087377B2 (ja) | 地理的情報を含む文書群の検索装置、検索方法、検索プログラムおよびそのプログラムを記録した記録媒体 | |
| CN110399448A (zh) | 中文地名地址搜索匹配方法、终端、计算机可读存储介质 | |
| JP6662689B2 (ja) | 単語判定装置 | |
| JP2010128898A (ja) | コンテンツ位置推定装置 | |
| JP5265418B2 (ja) | 観光ルート提供装置、観光ルート提供方法、及びプログラム | |
| JP2019032704A (ja) | 表データ構造化システムおよび表データ構造化方法 | |
| JP5639549B2 (ja) | 情報検索装置及び方法及びプログラム | |
| JP5790768B2 (ja) | 検索方法及び情報管理装置 | |
| JP2010181975A (ja) | 情報提供装置、情報提供方法、情報提供プログラムおよび記録媒体 | |
| JP4828653B1 (ja) | サーバ、辞書生成方法、辞書生成プログラム、及びそのプログラムを記録するコンピュータ読み取り可能な記録媒体 | |
| JP5708868B1 (ja) | プログラム、情報処理装置及び方法 | |
| JP6106070B2 (ja) | 地名推定方法、地名推定装置及び地名推定プログラム | |
| JP2017207799A (ja) | 検索プログラム、検索方法、検索装置、及び検索システム | |
| JP6271617B2 (ja) | 情報処理装置、情報処理方法および情報処理プログラム | |
| JP5464976B2 (ja) | 情報処理装置、情報処理方法および情報処理プログラム | |
| JP2018005759A (ja) | 引用マップ生成装置、引用マップ生成方法およびコンピュータプログラム | |
| JP5792871B1 (ja) | 代表スポット出力方法、代表スポット出力装置および代表スポット出力プログラム | |
| JP5650607B2 (ja) | 文書検索キーワード提示装置及び方法 | |
| JP5670944B2 (ja) | 文書要約装置及び方法及びプログラム | |
| JP5647090B2 (ja) | クエリ推薦装置及び方法及びプログラム | |
| JP6679391B2 (ja) | 地名表記判定装置 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20190213 |
|
| A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20191220 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20200121 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20200213 |
|
| R150 | Certificate of patent or registration of utility model |
Ref document number: 6662689 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
