JP6662689B2 - 単語判定装置 - Google Patents
単語判定装置 Download PDFInfo
- Publication number
- JP6662689B2 JP6662689B2 JP2016078722A JP2016078722A JP6662689B2 JP 6662689 B2 JP6662689 B2 JP 6662689B2 JP 2016078722 A JP2016078722 A JP 2016078722A JP 2016078722 A JP2016078722 A JP 2016078722A JP 6662689 B2 JP6662689 B2 JP 6662689B2
- Authority
- JP
- Japan
- Prior art keywords
- word
- determined
- characteristic
- text
- similarity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 239000013598 vector Substances 0.000 claims description 27
- 238000011156 evaluation Methods 0.000 claims description 13
- 238000000034 method Methods 0.000 description 42
- 238000004364 calculation method Methods 0.000 description 18
- JSKZWIGBDHYSGI-UCSXVCBISA-L disodium;(6r,7r)-7-[[(2e)-2-(2-amino-1,3-thiazol-4-yl)-2-[1-[2-(3,4-dihydroxybenzoyl)hydrazinyl]-2-methyl-1-oxopropan-2-yl]oxyiminoacetyl]amino]-3-[(2-carboxylato-5-methyl-[1,2,4]triazolo[1,5-a]pyrimidin-7-yl)sulfanylmethyl]-8-oxo-5-thia-1-azabicyclo[4.2. Chemical compound [Na+].[Na+].N([C@H]1[C@@H]2N(C1=O)C(=C(CS2)CSC1=CC(=NC2=NC(=NN21)C([O-])=O)C)C([O-])=O)C(=O)C(\C=1N=C(N)SC=1)=N\OC(C)(C)C(=O)NNC(=O)C1=CC=C(O)C(O)=C1 JSKZWIGBDHYSGI-UCSXVCBISA-L 0.000 description 8
- 241000237502 Ostreidae Species 0.000 description 7
- 230000006870 function Effects 0.000 description 7
- 235000020636 oyster Nutrition 0.000 description 7
- 241000167854 Bourreria succulenta Species 0.000 description 6
- 235000019693 cherries Nutrition 0.000 description 6
- 238000010586 diagram Methods 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 230000000877 morphologic effect Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
テキストa:「日本三景の一つである松島を観光した。」
テキストb:「松島で花見をした。」
テキストc:「松島の桜が満開だ。」
判定部16は、類似度Aと予め定められた閾値d1(第1閾値)とを比較するとともに投稿数Bと予め定められた閾値d2(第2閾値)とを比較し、これらの比較結果に基づいて判定対象の単語「桜」を特定の場所“松島”に関連付けるか否かを判定する。具体的には、判定部16は、類似度Aが閾値d1以上であり且つ投稿数Bが閾値d2以上であるか否かを判定する。ここで、閾値d1,d2は、例えばオペレータによって設定される。判定部16は、類似度Aが閾値d1以上であり且つ投稿数Bが閾値d2以上である場合(「A≧d1且つB≧d2」が成立する場合)、判定対象の単語「桜」を“松島”に関連付けると決定し、当該単語「桜」を“松島”の拡張特徴語として特徴語記憶部12に記憶させる。
判定部16は、類似度A及び投稿数Bから1つの評価値を生成し、当該評価値と予め定められた閾値d3(第3閾値)とを比較し、その比較結果に基づいて判定対象の単語「桜」を特定の場所“松島”に関連付けるか否かを判定する。一例として、判定部16は、下記式(2)の左辺を評価として生成し、当該評価値が閾値d3以上であるか否かを判定する。ここで、tは0から1までの間で任意に決定されるパラメータである。パラメータt及び閾値d3は、例えばオペレータによって設定される。判定部16は、評価値が閾値d3以上である場合、判定対象の単語「桜」を“松島”に関連付けると決定し、当該単語「桜」を“松島”の拡張特徴語として特徴語記憶部12に記憶させる。
A×t+B×(1−t)≧d3 …(2)
Claims (5)
- 予め定められた特定の場所に関連付けられる単語である特徴語を取得する特徴語取得手段と、
判定対象の単語を取得する単語取得手段と、
前記判定対象の単語が含まれるテキスト及び前記特徴語が含まれるテキストを少なくとも含む複数のテキストを学習データとして用いた学習を実行し、前記学習の結果に基づいて前記判定対象の単語と前記特徴語との類似度を算出する類似度算出手段と、
前記特定の場所に対応するエリアから投稿され、且つ、前記判定対象の単語が含まれる投稿テキストの数を示す投稿数を取得する投稿数取得手段と、
前記類似度算出手段により算出された類似度と前記投稿数取得手段により取得された投稿数とに基づいて、前記判定対象の単語を前記特定の場所に関連付けるか否かを判定する判定手段と、
を備える単語判定装置。 - 前記類似度算出手段は、前記判定対象の単語及び前記特徴語の各々をベクトルに変換し、変換されたベクトル同士のコサイン類似度を前記類似度として算出する、
請求項1に記載の単語判定装置。 - 前記判定手段は、前記類似度と予め定められた第1閾値とを比較し、前記投稿数と予め定められた第2閾値とを比較し、これらの比較結果に基づいて前記判定対象の単語を前記特定の場所に関連付けるか否かを判定する、
請求項1又は2に記載の単語判定装置。 - 前記判定手段は、前記類似度及び前記投稿数から1つの評価値を生成し、前記評価値と予め定められた第3閾値とを比較し、その比較結果に基づいて前記判定対象の単語を前記特定の場所に関連付けるか否かを判定する、
請求項1又は2に記載の単語判定装置。 - 前記特定の場所を意味する可能性がある地名表記が含まれるテキストを取得し、前記テキストに前記特徴語又は前記判定手段により前記特定の場所に関連付けると決定された単語である拡張特徴語が含まれているか否かを判定し、前記テキストに前記特徴語又は前記拡張特徴語が含まれていると判定された場合に、前記地名表記が前記テキスト中で前記特定の場所を意味すると判定するテキスト判定手段を更に備える、
請求項1〜4のいずれか一項に記載の単語判定装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016078722A JP6662689B2 (ja) | 2016-04-11 | 2016-04-11 | 単語判定装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016078722A JP6662689B2 (ja) | 2016-04-11 | 2016-04-11 | 単語判定装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2017191357A JP2017191357A (ja) | 2017-10-19 |
JP6662689B2 true JP6662689B2 (ja) | 2020-03-11 |
Family
ID=60085294
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2016078722A Active JP6662689B2 (ja) | 2016-04-11 | 2016-04-11 | 単語判定装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6662689B2 (ja) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6788637B2 (ja) * | 2018-02-27 | 2020-11-25 | 株式会社 ミックウェア | 情報検索装置及び情報検索システム |
EP3531303A1 (en) | 2018-02-27 | 2019-08-28 | Micware Co., Ltd. | Information retrieval apparatus, information retrieval system, information retrieval method, and program |
CN109885813B (zh) * | 2019-02-18 | 2023-04-28 | 武汉瓯越网视有限公司 | 一种基于词语覆盖度的文本相似度的运算方法及系统 |
CN110781670B (zh) * | 2019-10-28 | 2023-03-03 | 合肥工业大学 | 基于百科知识库和词向量的中文地名语义消歧方法 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5371480B2 (ja) * | 2009-02-25 | 2013-12-18 | 株式会社 ミックウェア | 情報処理装置、情報処理方法、およびプログラム |
JP6191277B2 (ja) * | 2013-06-25 | 2017-09-06 | キヤノンマーケティングジャパン株式会社 | 情報処理装置、情報処理方法、プログラム |
JP2015049813A (ja) * | 2013-09-03 | 2015-03-16 | Kddi株式会社 | 情報提供システム、プログラムおよび情報提供方法 |
-
2016
- 2016-04-11 JP JP2016078722A patent/JP6662689B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2017191357A (ja) | 2017-10-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6662689B2 (ja) | 単語判定装置 | |
JP5087377B2 (ja) | 地理的情報を含む文書群の検索装置、検索方法、検索プログラムおよびそのプログラムを記録した記録媒体 | |
CN111460327B (zh) | 兴趣地搜索方法及装置、存储介质、计算机设备 | |
JP2018537760A (ja) | アドレス情報に基づいたアカウントマッピングの方法及び装置 | |
US20180260473A1 (en) | Full text retrieving and matching method and system based on lucene custom lexicon | |
JP5757208B2 (ja) | キーワード抽出システム、キーワード抽出方法及びプログラム | |
JP5461388B2 (ja) | Wwwを情報源として記述的な回答が可能な質問応答システム | |
JPWO2019234827A1 (ja) | 情報処理装置、判定方法、及びプログラム | |
JP5154109B2 (ja) | 文書検索装置、方法、及びプログラム | |
JP5790768B2 (ja) | 検索方法及び情報管理装置 | |
JP2010181975A (ja) | 情報提供装置、情報提供方法、情報提供プログラムおよび記録媒体 | |
JP6106070B2 (ja) | 地名推定方法、地名推定装置及び地名推定プログラム | |
JP5708868B1 (ja) | プログラム、情報処理装置及び方法 | |
JP5806974B2 (ja) | 近隣情報検索装置及び方法及びプログラム | |
JP5544003B2 (ja) | 情報検索装置、情報検索システム、及び情報検索方法 | |
JP6817246B2 (ja) | データ処理装置、データ処理方法及びデータ処理プログラム | |
US20150286687A1 (en) | Information processing apparatus, information processing method, and recording medium | |
JP5792871B1 (ja) | 代表スポット出力方法、代表スポット出力装置および代表スポット出力プログラム | |
JP2009282903A (ja) | 知識抽出・検索装置およびその方法 | |
JP6679391B2 (ja) | 地名表記判定装置 | |
CN110083679B (zh) | 搜索请求的处理方法、装置、电子设备和存储介质 | |
JP5647090B2 (ja) | クエリ推薦装置及び方法及びプログラム | |
JP5464976B2 (ja) | 情報処理装置、情報処理方法および情報処理プログラム | |
JP5650607B2 (ja) | 文書検索キーワード提示装置及び方法 | |
JP5324903B2 (ja) | 類似度計算装置、方法及びプログラム、データ検索システム及び方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20190213 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20191220 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20200121 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20200213 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6662689 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |