JP2009217544A - 文字ベクトルを用いた略語生成装置、方法及びプログラム - Google Patents
文字ベクトルを用いた略語生成装置、方法及びプログラム Download PDFInfo
- Publication number
- JP2009217544A JP2009217544A JP2008060650A JP2008060650A JP2009217544A JP 2009217544 A JP2009217544 A JP 2009217544A JP 2008060650 A JP2008060650 A JP 2008060650A JP 2008060650 A JP2008060650 A JP 2008060650A JP 2009217544 A JP2009217544 A JP 2009217544A
- Authority
- JP
- Japan
- Prior art keywords
- word
- corresponding word
- similarity
- correspondence
- original
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 37
- 239000013598 vector Substances 0.000 title claims description 36
- 238000011156 evaluation Methods 0.000 claims abstract description 31
- 238000004364 calculation method Methods 0.000 claims abstract description 20
- 230000000877 morphologic effect Effects 0.000 abstract description 4
- 238000004458 analytical method Methods 0.000 abstract description 3
- 230000006870 function Effects 0.000 description 13
- 238000012545 processing Methods 0.000 description 13
- 230000008569 process Effects 0.000 description 12
- 238000010586 diagram Methods 0.000 description 10
- 230000003287 optical effect Effects 0.000 description 7
- 238000004519 manufacturing process Methods 0.000 description 6
- 230000000694 effects Effects 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 230000010365 information processing Effects 0.000 description 3
- 239000004065 semiconductor Substances 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 230000004931 aggregating effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000010187 selection method Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Landscapes
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【解決手段】対応語生成装置100は、原語と対応語とを対応づけて記録した対応語辞書30と対応語検索対象語を取得する対応語検索対象語取得手段110と2つの語句間の類似度を算出する語句間類似度算出手段130と対応語検索対象語と原語との類似度に基づいて該原語に対応づけられた対応語ごとに評価値を付与する対応語別評価値付与手段140と付与された評価値に基づき1以上の対応語候補を選択する対応語候補選択手段150と選択された対応語候補と対応語検索対象語との相関度を現実のWebページに基づき求める相関度判定手段160と求めた相関度に基づいて対応語を決定する対応語決定手段170とを備える。
【選択図】図2
Description
対応語検索対象語を取得する対応語検索対象語取得手段と、
2つの語句間の類似度を算出する語句間類似度算出手段と、
前記語句間類似度算出手段により前記対応語検索対象語と前記原語との類似度を前記対応語辞書に記録されたすべての原語について求め、該類似度に基づいて該原語に対応づけられた対応語ごとに評価値を付与する対応語別評価値付与手段と、
前記対応語別評価値付与手段により付与された評価値に基づき1以上の対応語候補を選択する対応語候補選択手段と、
を備える対応語生成装置。
前記相関度判定手段により求めた相関度に基づいて、対応語を決定する対応語決定手段と、
をさらに備えることを特徴とする(1)に記載の対応語生成装置。
前記語句間類似度算出手段が算出する類似度は、前記語句ベクトル化手段による2つの語句に係るベクトル間の演算によって求められることを特徴とする(1)から(5)のいずれかに記載の対応語生成装置。
対応語検索対象語を取得する対応語検索対象語取得ステップと、
2つの語句間の類似度を算出する語句間類似度算出ステップと、
前記対応語検索対象語と前記原語との類似度を前記対応語辞書に記録されたすべての原語について求め、該原語に対応づけられた対応語ごとに集計する対応語別類似度集計ステップと、
前記集計した結果に基づき1以上の対応語候補を選択する対応語候補選択ステップと、
前記選択された対応語候補と前記対応語検索対象語との相関度を現実のWebページに基づき求める相関度判定ステップと、
前記相関度に基づいて、対応語を決定する対応語決定ステップと、
を備える対応語生成方法。
[対応語生成装置と関連要素の全体構成]
図1は、本実施形態に係る対応語生成装置と関連要素の全体構成を示す図である。
図2は、本実施形態に係る対応語生成装置の機能構成を示す図である。
図3は、本実施形態に係る対応語生成装置のハードウェア構成を示す図である。本発明が実施されるサーバは標準的なものでよく、以下に構成の一例を示す。
ユーザ端末10も、上述の対応語生成装置100と同様な構成を持つ。また、上述の例ではいわゆるコンピュータで実現した例について説明したが、さらに、本発明の原理が適用可能である限り、携帯電話、PDA(Personal Data Assistant)、ゲーム機等の様々な端末で実現してよい。
図4は、本実施形態に係る対応語辞書を示す図である。
図5は、本実施形態に係る文字ベクトル構成図である。
図7は、本実施形態に係る語句間類似度集計テーブルを示す図である。
図8は、本実施形態に係る共起ヒット数テーブルを示す図である。
図9は、本実施形態に係る対応語生成処理のフローチャートである。この処理は対応語生成サーバ20のプログラムによって行われる。
20 対応語生成サーバ
30 対応語辞書
40 Webページ群
50 インターネット
100 対応語生成装置
200 バスライン
300 制御部
430 記憶装置
Claims (12)
- 原語と対応語とを対応づけて記録した対応語辞書と、
対応語検索対象語を取得する対応語検索対象語取得手段と、
2つの語句間の類似度を算出する語句間類似度算出手段と、
前記語句間類似度算出手段により前記対応語検索対象語と前記原語との類似度を前記対応語辞書に記録されたすべての原語について求め、該類似度に基づいて該原語に対応づけられた対応語ごとに評価値を付与する対応語別評価値付与手段と、
前記対応語別評価値付与手段により付与された評価値に基づき1以上の対応語候補を選択する対応語候補選択手段と、
を備える対応語生成装置。 - 前記対応語候補選択手段により選択された対応語候補と前記対応語検索対象語との相関度を現実のWebページに基づき求める相関度判定手段と、
前記相関度判定手段により求めた相関度に基づいて、対応語を決定する対応語決定手段と、
をさらに備えることを特徴とする請求項1に記載の対応語生成装置。 - 前記相関度判定手段が求める相関度は、対応語候補と前記対応語検索対象語とがともに出現するWebページの数であることを特徴とする請求項2に記載の対応語生成装置。
- 前記対応語決定手段が行う決定は、前記相関度判定手段により求めた相関度が、所定の基準値を超えているか否かにより行うことを特徴とする請求項2または請求項3に記載の対応語生成装置。
- 前記対応語別評価値付与手段により付与される評価値は、前記類似度を前記対応語ごとに集計した値であることを特徴とする請求項1から請求項4のいずれかに記載の対応語生成装置。
- 語句をベクトル化する語句ベクトル化手段をさらに備え、
前記語句間類似度算出手段が算出する類似度は、前記語句ベクトル化手段による2つの語句に係るベクトル間の演算によって求められることを特徴とする請求項1から請求項5のいずれかに記載の対応語生成装置。 - 前記語句ベクトル化手段による語句のベクトル化は、語句を構成可能なすべての文字を基準として該文字がベクトル化する語句に出現する個数に基づいて行うものであることを特徴とする請求項6または請求項7に記載の対応語生成装置。
- 前記対応語候補選択手段が行う選択は、前記評価値が所定の基準値を超えている対応語候補を選択することにより行うことを特徴とする請求項1から請求項8のいずれかに記載の対応語生成装置。
- 前記対応語候補選択手段が行う選択は、前記評価値の大きい方から所定の個数の対応語候補を選択することにより行うことを特徴とする請求項1から請求項9のいずれかに記載の対応語生成装置。
- コンピュータが原語と対応語とを対応づけて記録した対応語辞書を用いて行う方法であって、
対応語検索対象語を取得する対応語検索対象語取得ステップと、
2つの語句間の類似度を算出する語句間類似度算出ステップと、
前記対応語検索対象語と前記原語との類似度を前記対応語辞書に記録されたすべての原語について求め、該原語に対応づけられた対応語ごとに集計する対応語別類似度集計ステップと、
前記集計した結果に基づき1以上の対応語候補を選択する対応語候補選択ステップと、
前記選択された対応語候補と前記対応語検索対象語との相関度を現実のWebページに基づき求める相関度判定ステップと、
前記相関度に基づいて、対応語を決定する対応語決定ステップと、
を備える対応語生成方法。 - 請求項10に記載の方法をコンピュータに実行させるプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008060650A JP4953459B2 (ja) | 2008-03-11 | 2008-03-11 | 文字ベクトルを用いた略語生成装置、方法及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008060650A JP4953459B2 (ja) | 2008-03-11 | 2008-03-11 | 文字ベクトルを用いた略語生成装置、方法及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2009217544A true JP2009217544A (ja) | 2009-09-24 |
JP4953459B2 JP4953459B2 (ja) | 2012-06-13 |
Family
ID=41189322
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008060650A Active JP4953459B2 (ja) | 2008-03-11 | 2008-03-11 | 文字ベクトルを用いた略語生成装置、方法及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4953459B2 (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2018077850A (ja) * | 2016-11-10 | 2018-05-17 | 株式会社Nttドコモ | 単語正規化方法、単語正規化装置及び機械翻訳方法、機械翻訳装置 |
JP2019503025A (ja) * | 2016-01-11 | 2019-01-31 | アリババ グループ ホウルディング リミテッド | 地図上の関心地点の略称を得る方法及び装置 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH1125117A (ja) * | 1997-07-08 | 1999-01-29 | Oki Electric Ind Co Ltd | 語検索装置 |
JP2004326367A (ja) * | 2003-04-23 | 2004-11-18 | Sharp Corp | テキスト解析装置及びテキスト解析方法、ならびにテキスト音声合成装置 |
JP2007200252A (ja) * | 2006-01-30 | 2007-08-09 | Ricoh Co Ltd | 省略語生成・妥当性評価方法、同義語データベース生成・更新方法、省略語生成・妥当性評価装置、同義語データベース生成・更新装置、プログラム、記録媒体 |
-
2008
- 2008-03-11 JP JP2008060650A patent/JP4953459B2/ja active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH1125117A (ja) * | 1997-07-08 | 1999-01-29 | Oki Electric Ind Co Ltd | 語検索装置 |
JP2004326367A (ja) * | 2003-04-23 | 2004-11-18 | Sharp Corp | テキスト解析装置及びテキスト解析方法、ならびにテキスト音声合成装置 |
JP2007200252A (ja) * | 2006-01-30 | 2007-08-09 | Ricoh Co Ltd | 省略語生成・妥当性評価方法、同義語データベース生成・更新方法、省略語生成・妥当性評価装置、同義語データベース生成・更新装置、プログラム、記録媒体 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2019503025A (ja) * | 2016-01-11 | 2019-01-31 | アリババ グループ ホウルディング リミテッド | 地図上の関心地点の略称を得る方法及び装置 |
US11255690B2 (en) | 2016-01-11 | 2022-02-22 | Advanced New Technologies Co., Ltd. | Method and apparatus for obtaining abbreviated name of point of interest on map |
JP2018077850A (ja) * | 2016-11-10 | 2018-05-17 | 株式会社Nttドコモ | 単語正規化方法、単語正規化装置及び機械翻訳方法、機械翻訳装置 |
JP7120751B2 (ja) | 2016-11-10 | 2022-08-17 | 株式会社Nttドコモ | 単語正規化方法、単語正規化装置及び機械翻訳方法、機械翻訳装置 |
Also Published As
Publication number | Publication date |
---|---|
JP4953459B2 (ja) | 2012-06-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4701292B2 (ja) | テキスト・データに含まれる固有表現又は専門用語から用語辞書を作成するためのコンピュータ・システム、並びにその方法及びコンピュータ・プログラム | |
JP5078173B2 (ja) | 多義性解消方法とそのシステム | |
JPH11110416A (ja) | データベースからドキュメントを検索するための方法および装置 | |
JP4778474B2 (ja) | 質問応答装置、質問応答方法、質問応答プログラム並びにそのプログラムを記録した記録媒体 | |
JP5216063B2 (ja) | 未登録語のカテゴリを決定する方法と装置 | |
JP5710581B2 (ja) | 質問応答装置、方法、及びプログラム | |
JP5321583B2 (ja) | 共起辞書生成システム、スコアリングシステム、共起辞書生成方法、スコアリング方法及びプログラム | |
JP2002215619A (ja) | 翻訳文書からの翻訳文抽出方法 | |
US7475005B2 (en) | Translation system, dictionary updating server, translation method, and program and recording medium for use therein | |
JP2000194696A (ja) | サンプルテキスト基調言語自動識別方法 | |
JP2000200281A (ja) | 情報検索装置および情報検索方法ならびに情報検索プログラムを記録した記録媒体 | |
JP4953459B2 (ja) | 文字ベクトルを用いた略語生成装置、方法及びプログラム | |
JP4102153B2 (ja) | インターネットを利用した文字認識の後処理装置 | |
JP2004355550A (ja) | 自然文検索装置、その方法及びプログラム | |
CN115964474A (zh) | 一种政策关键词抽取方法、装置、存储介质及电子设备 | |
JP4938515B2 (ja) | 単語間相関度計算装置および方法、プログラム並びに記録媒体 | |
JP7117168B2 (ja) | 情報処理装置および情報処理方法 | |
JP6689466B1 (ja) | 文構造ベクトル化装置、文構造ベクトル化方法、及び文構造ベクトル化プログラム | |
EP3203384A1 (en) | Method, device, and computer program for providing a definition or a translation of a word belonging to a sentence as a function of neighbouring words and of databases | |
JP6181890B2 (ja) | 文献解析装置、文献解析方法およびプログラム | |
JP3952964B2 (ja) | 読み情報決定方法及び装置及びプログラム | |
Hennig et al. | Spiga-a multilingual news aggregator | |
JP5094096B2 (ja) | 有名人の別表現の自動抽出装置、方法 | |
JP4592556B2 (ja) | 文書検索装置、文書検索方法および文書検索プログラム | |
JP2007148630A (ja) | 特許分析装置、特許分析システム、特許分析方法およびプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090626 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20090626 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110607 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110805 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20120214 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20120312 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20120312 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4953459 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20150323 Year of fee payment: 3 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313111 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313111 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |