JP2009217544A - 文字ベクトルを用いた略語生成装置、方法及びプログラム - Google Patents

文字ベクトルを用いた略語生成装置、方法及びプログラム Download PDF

Info

Publication number
JP2009217544A
JP2009217544A JP2008060650A JP2008060650A JP2009217544A JP 2009217544 A JP2009217544 A JP 2009217544A JP 2008060650 A JP2008060650 A JP 2008060650A JP 2008060650 A JP2008060650 A JP 2008060650A JP 2009217544 A JP2009217544 A JP 2009217544A
Authority
JP
Japan
Prior art keywords
word
corresponding word
similarity
correspondence
original
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2008060650A
Other languages
English (en)
Other versions
JP4953459B2 (ja
Inventor
Takeshi Masuyama
毅司 増山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yahoo Japan Corp
Original Assignee
Yahoo Japan Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yahoo Japan Corp filed Critical Yahoo Japan Corp
Priority to JP2008060650A priority Critical patent/JP4953459B2/ja
Publication of JP2009217544A publication Critical patent/JP2009217544A/ja
Application granted granted Critical
Publication of JP4953459B2 publication Critical patent/JP4953459B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】略語の生成自体を形態素解析と略語生成規則への当てはめの組合せのようにプログラムによって行うのではなく、すでに存在する略語の中から最適なものを見つける技術を提供すること。
【解決手段】対応語生成装置100は、原語と対応語とを対応づけて記録した対応語辞書30と対応語検索対象語を取得する対応語検索対象語取得手段110と2つの語句間の類似度を算出する語句間類似度算出手段130と対応語検索対象語と原語との類似度に基づいて該原語に対応づけられた対応語ごとに評価値を付与する対応語別評価値付与手段140と付与された評価値に基づき1以上の対応語候補を選択する対応語候補選択手段150と選択された対応語候補と対応語検索対象語との相関度を現実のWebページに基づき求める相関度判定手段160と求めた相関度に基づいて対応語を決定する対応語決定手段170とを備える。
【選択図】図2

Description

本発明は、自然言語処理における略語生成装置、方法及びプログラムに関する。
従来、WWW上の情報を調べる際に検索エンジンが利用されている。これらの多くは自分の調べたい対象のキーワードを入力することにより、このキーワードに合致したWebページが検索結果として表示される。検索エンジンでは、キーワード入力時にある語(例えば「スターバックス」(登録商標))を入力した場合、その略語である「スタバ」(登録商標)しか含まれていないWebページはヒットしない。そのため、入力されたキーワードに略語があれば、それを抽出しキーワードに加えた上で検索をした方が、より目的に適った検索結果を得ることができる。
また、近年、Webページの検索、分類、テキストマイニング等に代表されるように、大量の文章から特定の商品や人物等の情報や評判を獲得する技術に関心が高まっている。しかし、これらの目的を達成するためには、対象となる商品等の語の同義語の存在に注意しなければならない。
このような背景から、あるキーワードに対する略語(またはある略語に対する原語)を調べることができるシステムが開発されている。例えば、特許文献1には、生成した略語の妥当性を判断するために、略語について検索エンジンでの検索結果を取得し、ヒット件数から妥当可能性を判定する方法が記載されている。そして、略語を生成するために、文章を形態素解析し、その形態素を略語生成規則に当てはめて略語を生成している。
特開2007−200252号公報
上記のような方法では、形態素解析プログラムのバージョン変更により、結果が変わってしまう可能性があるという問題点があった。
そこで、本発明は、上記問題点を解決するため、略語の生成自体を形態素解析と略語生成規則への当てはめの組合せのようにプログラムによって行うのではなく、すでに存在する略語(またはある略語に対する原語)の中から最適なものを見つける技術を提供することを課題とする。
本発明者は、まだ略語の付いてない語句に対して、文字ベクトルを用いて既に略語を持つ原語との類似度を用いて適正な略語を見つける仕組みを見出し、本発明を完成するに至った。本発明は、具体的には次のようなものを提供する。
(1) 原語と対応語とを対応づけて記録した対応語辞書と、
対応語検索対象語を取得する対応語検索対象語取得手段と、
2つの語句間の類似度を算出する語句間類似度算出手段と、
前記語句間類似度算出手段により前記対応語検索対象語と前記原語との類似度を前記対応語辞書に記録されたすべての原語について求め、該類似度に基づいて該原語に対応づけられた対応語ごとに評価値を付与する対応語別評価値付与手段と、
前記対応語別評価値付与手段により付与された評価値に基づき1以上の対応語候補を選択する対応語候補選択手段と、
を備える対応語生成装置。
本発明のこのような構成によれば、まだ対応語を付されていない語句に付すべき対応語を、すでに原語と対応づけられた対応語の中から、原語との対応関係を反映して選択するので、対応語生成規則を新たに作成する必要がなく、また、対応語生成規則に合わない対応語が作成されることもない。
(2) 前記対応語候補選択手段により選択された対応語候補と前記対応語検索対象語との相関度を現実のWebページに基づき求める相関度判定手段と、
前記相関度判定手段により求めた相関度に基づいて、対応語を決定する対応語決定手段と、
をさらに備えることを特徴とする(1)に記載の対応語生成装置。
本発明のこのような構成によれば、対応語が略語である場合に、(1)の発明で、すでに用いられている略語の中から選択した候補の中から、Webページ上で、略語を付すべき語句と略語候補との相関度を用いて最終的に適否を決定するので、信頼性の高い略語を見つけることができる。
(3) 前記相関度判定手段が求める相関度は、対応語候補と前記対応語検索対象語とがともに出現するWebページの数であることを特徴とする(2)に記載の対応語生成装置。
本発明のこのような構成によれば、実際にWebページ上で対応語検索対象語と併用されている対応語を対応語候補の中から決定することができるので、実用性を考慮した対応語を付すことができる。
(4) 前記対応語決定手段が行う決定は、前記相関度判定手段により求めた相関度が、所定の基準値を超えているか否かにより行うことを特徴とする(2)または(3)に記載の対応語生成装置。
本発明のこのような構成によれば、実際にWebページ上で対応語検索対象語と併用されている頻度に基づいて付すべき対応語を決定するので、実績のある対応語を付すことができる。
(5) 前記対応語別評価値付与手段により付与される評価値は、前記類似度を前記対応語ごとに集計した値であることを特徴とする(1)から(4)のいずれかに記載の対応語生成装置。
本発明のこのような構成によれば、対応語に対応づけられた原語と対応語を付すべき語句との類似度を集計することにより対応語に付与する評価値を決定するので、評価値の決定が簡単である上、類似度の高い原語が多い対応語ほど評価値が高くなり、最終的に選択される可能性が高まるので、理に適った対応語を見つけることができる。
(6) 語句をベクトル化する語句ベクトル化手段をさらに備え、
前記語句間類似度算出手段が算出する類似度は、前記語句ベクトル化手段による2つの語句に係るベクトル間の演算によって求められることを特徴とする(1)から(5)のいずれかに記載の対応語生成装置。
本発明のこのような構成によれば、語句をベクトル化し、ベクトル間の演算によって語句間の類似度を求めるので、コンピュータを用いて簡単に類似度を計算することができる。
(7) 前記類似度は、前記ベクトルの
Figure 2009217544
ただし、X:第1の語句に係るベクトル
:第2の語句に係るベクトル
により計算することを特徴とする(6)に記載の対応語生成装置。
(8) 前記語句ベクトル化手段による語句のベクトル化は、語句を構成可能なすべての文字を基準として該文字がベクトル化する語句に出現する個数に基づいて行うものであることを特徴とする(6)または(7)に記載の対応語生成装置。
本発明のこのような構成によれば、言語を問わずどのような語句でも簡単にベクトル化することができる。
(9) 前記対応語候補選択手段が行う選択は、前記評価値が所定の基準値を超えている対応語候補を選択することにより行うことを特徴とする(1)から(8)のいずれかに記載の対応語生成装置。
本発明のこのような構成によれば、対応語候補の個数を問わず、可能性が高い対応語候補をすべて選択することができるので、信頼性の高い対応語を付けることができる。
(10) 前記対応語候補選択手段が行う選択は、前記評価値の大きい方から所定の個数の対応語候補を選択することにより行うことを特徴とする(1)から(9)のいずれかに記載の対応語生成装置。
本発明のこのような構成によれば、対応語候補の個数を予め指定して選択するので、その後の相関度判定の処理に過度な負担を与えることなく処理を行うことができる。
(11) コンピュータが原語と対応語とを対応づけて記録した対応語辞書を用いて行う方法であって、
対応語検索対象語を取得する対応語検索対象語取得ステップと、
2つの語句間の類似度を算出する語句間類似度算出ステップと、
前記対応語検索対象語と前記原語との類似度を前記対応語辞書に記録されたすべての原語について求め、該原語に対応づけられた対応語ごとに集計する対応語別類似度集計ステップと、
前記集計した結果に基づき1以上の対応語候補を選択する対応語候補選択ステップと、
前記選択された対応語候補と前記対応語検索対象語との相関度を現実のWebページに基づき求める相関度判定ステップと、
前記相関度に基づいて、対応語を決定する対応語決定ステップと、
を備える対応語生成方法。
(12) (11)に記載の方法をコンピュータに実行させるプログラム。
この発明によれば、語句からその略語を見つけたり、または略語からその原語を見つける場合に、すでに対応関係にある語句と略語との蓄積されたデータに基づき、妥当なものを見つけることができる。また、候補の選択と実際のWebページ上での共起ヒット数による検証との2つのステップで処理するため、必要で且つ十分な略語または原語を見つけることが可能となる。
以下、本発明を実施するための最良の形態について図を参照しながら説明する。なお、これはあくまでも一例であって、本発明の技術的範囲はこれに限られるものではない。
(第1の実施形態)
[対応語生成装置と関連要素の全体構成]
図1は、本実施形態に係る対応語生成装置と関連要素の全体構成を示す図である。
対応語生成装置100は、対応語生成サーバ20と対応語辞書30とを備え、インターネット50を介してユーザ端末10と接続され構成されている。また、インターネット50を介し、Webページ群40にアクセス可能である。
対応語生成サーバ20は、後述の各手段の処理を実行する。
対応語辞書30は、原語と原語に付された対応語とを対応づけて蓄積記録したものであり、後述の各手段で参照され、上述の効果を生み出す。なお、ここで対応語とは、略語を想定しているが、2つの語句間に対応関係があるものであれば略語でなくてもよい。また、原語と略語を逆にして、対応語を原語としてもよい。
ユーザ端末10は、ユーザが対応語検索対象語を入力するときに使用する。
[対応語生成装置の機能構成]
図2は、本実施形態に係る対応語生成装置の機能構成を示す図である。
対応語生成装置100は、対応語検索対象語取得手段110と、語句ベクトル化手段120と、語句間類似度算出手段130と、対応語別評価値付与手段140と、対応語候補選択手段150と、相関度判定手段160と、対応語決定手段170と、対応語辞書30とを備える。
対応語検索対象語取得手段110は、本発明が対応語の検索を行うためにユーザから入力された対応語検索対象語を受け取る。
語句ベクトル化手段120は、語句をベクトル化する機能を有する。語句は予め定めた言語の文字で表現されるものであればよい。ベクトル化の対象となるのは、対応語検索対象語取得手段110で取得した対応語検索対象語と、対応語辞書30に登録された原語である。ベクトル化することで、本来曖昧な語句間の類似という概念を厳密に且つコンピュータにより高速に行うことができるようになる。
語句間類似度算出手段130は、2つの語句間の類似度を計算する機能を有する。本実施形態においては、語句を語句ベクトル化手段120によりベクトル化し、ベクトル同士の演算により類似度を計算する。
対応語別評価値付与手段140は、対応語検索対象語に対して付すべき対応語を対応語辞書30から見つけるために、語句間類似度算出手段130により求めた類似度に基づいて対応語に評価値を付与する。対応語には1以上の原語が対応づけて記録されているので、各原語について求めた類似度を対応する対応語ごとに整理することで対応語に付与すべき評価値を計算することができる。計算方法としては種々の方法が考えられるが、本実施形態においては、類似度を集計する方法を採る。集計をする方法ではなく、平均を取る等、他の方法であってもよい。
対応語候補選択手段150は、対応語別評価値付与手段140により対応語に付与された評価値に基づき、対応語検索対象語に付すべき対応語候補を選択する。選択方法としては種々考えられる。例えば、評価値が所定の閾値を超えた対応語を選択する方法や、評価値が大きい方から所定の個数の対応語を選択する方法がある。いずれにしても、複数個の対応語候補が選択される可能性があり、それらを相関度判定手段160の入力として用いる。
相関度判定手段160は、対応語候補選択手段150で選択された対応語候補について、それぞれ対応語検索対象語との相関度を判定する。この相関度は、1つの対応語候補と対応語検索対象語がともにWebページ上に出現するか否か、つまり、その対応語候補が対応語検索対象語の対応語として実際に使用されている可能性があるか否かについて調べる。具体的には、本実施形態においては、当該対応語候補と対応語検索対象語がともにWebページ上に出現する件数(共起ヒット数)を、検索エンジンを用いて調べる。
対応語決定手段170は、相関度判定手段160により求めた共起ヒット数に基づき対応語検索対象語に付すべき対応語を決定する。決定方法としては種々考えられるが、例えば、共起ヒット数が所定の値を超えているものすべてを付すべき対応語として決定してもよいし、共起ヒット数が最も多いものを付すべき対応語として決定してもよい。目的に応じて適宜選べばよい。
[対応語生成装置のハードウェア構成図]
図3は、本実施形態に係る対応語生成装置のハードウェア構成を示す図である。本発明が実施されるサーバは標準的なものでよく、以下に構成の一例を示す。
対応語生成装置100は、制御部300を構成するCPU(Central Processing Unit)310(マルチプロセッサ構成ではCPU320等複数のCPUが追加されてもよい)、バスライン200、通信I/F(I/F:インターフェイス)330、メインメモリ340、BIOS(Basic Input Output System)350、表示装置360、I/Oコントローラ370、キーボード及びマウス等の入力装置380、ハードディスク390、光ディスクドライブ400、並びに半導体メモリ420を備える。なお、ハードディスク390、光ディスクドライブ400、並びに半導体メモリ420はまとめて記憶装置430と呼ぶ。
制御部300は、対応語生成装置100を統括的に制御する部分であり、ハードディスク390(後述)に記憶された各種プログラムを適宜読み出して実行することにより、上述したハードウェアと協働し、本発明に係る各種機能を実現している。
通信I/F330は、対応語生成装置100が、インターネット50(図1)を介してユーザ端末10等(図1)と情報を送受信する場合のネットワーク・アダプタである。通信I/F330は、モデム、ケーブル・モデム及びイーサネット(登録商標)・アダプタを含んでよい。
BIOS350は、対応語生成装置100の起動時にCPU310が実行するブートプログラムや、対応語生成装置100のハードウェアに依存するプログラム等を記録する。
表示装置360は、ブラウン管表示装置(CRT)、液晶表示装置(LCD)等のディスプレイ装置を含む。
I/Oコントローラ370には、ハードディスク390、光ディスクドライブ400、及び半導体メモリ420等の記憶装置430を接続することができる。
入力装置380は、対応語生成装置100の管理者による入力の受け付けを行うものである。
ハードディスク390は、本ハードウェアを対応語生成装置100として機能させるための各種プログラム、本発明の機能を実行するプログラム及び後述するテーブル及びレコードを記憶する。なお、対応語生成装置100は、外部に別途設けたハードディスク(図示せず)を外部記憶装置として利用することもできる。
光ディスクドライブ400としては、例えば、DVD−ROMドライブ、CD−ROMドライブ、DVD−RAMドライブ、CD−RAMドライブを使用することができる。この場合は各ドライブに対応した光ディスク410を使用する。光ディスク410から光ディスクドライブ400によりプログラムまたはデータを読み取り、I/Oコントローラ370を介してメインメモリ340またはハードディスク390に提供することもできる。
なお、本発明でいうコンピュータとは、記憶装置、制御部等を備えた情報処理装置をいい、対応語生成装置100は、記憶装置430、制御部300等を備えた情報処理装置により構成され、この情報処理装置は、本発明のコンピュータの概念に含まれる。
対応語検索対象語取得手段110、語句ベクトル化手段120、語句間類似度算出手段130、対応語別評価値付与手段140、対応語候補選択手段150、相関度判定手段160、及び対応語決定手段170には制御部300が主として対応する。対応語辞書30には記憶装置430が主として対応する。
[ユーザ端末10のハードウェア構成]
ユーザ端末10も、上述の対応語生成装置100と同様な構成を持つ。また、上述の例ではいわゆるコンピュータで実現した例について説明したが、さらに、本発明の原理が適用可能である限り、携帯電話、PDA(Personal Data Assistant)、ゲーム機等の様々な端末で実現してよい。
[対応語辞書]
図4は、本実施形態に係る対応語辞書を示す図である。
対応語辞書には、原語1000とその原語に付された対応語1001との対が複数個登録されている。図4の例では、対応語は対応する原語の略語としているが、これに限られるものではない。原語1000の部分を略語として、対応語1001をその略語に対応する原語としてもよい。その他、語句間に一定の対応関係がある場合は、片方を原語、他方を対応語とすることができる。対応語辞書は、原語とその対応語を適宜収集して、登録していけばよいので、容易に内容を充実させていくことができる。
[文字ベクトル]
図5は、本実施形態に係る文字ベクトル構成図である。
文字ベクトルは、語句を構成可能なすべての文字を基準として、各文字が語句に出現する個数を要素としたベクトルである。例えば、日本語であれば、語句を構成する文字は、ひらがな、カタカナ、漢字等から構成される。そこで、使用可能な文字を「あ」から順に並べ、語句に出現する各文字の個数を所定の場所に配置することにより、語句に対応する1つのベクトルを作ることができる。本実施形態では、そのような方法でベクトル化を行う。
上記のような方法では、使用可能な文字の総個数を仮にJ個とすると、文字ベクトルはJ個の要素を持つベクトルとなる。この方法によれば、ベクトルは文字の出現数にのみ依存し、出現の順序には左右されない。その結果、出現順序が入れ替わるような表記揺れにも適切に対応することができる。なお、出現順序が入れ替わることにより全く別の言葉になるようなものが同じベクトルとされてしまうという問題があるが、それは上述の相関度を判定することで対応することができる。
図6は、本実施形態に係る文字ベクトル例を示す図である。「スターバックス」(登録商標)という語句をベクトル化する例を示している。「スターバックス」(登録商標)には、「ス」が2個、「タ」、「ー」、「バ」、「ッ」、「ク」はそれぞれ1個で、その他の文字は0個である。そこで、それぞれの文字に対応する場所に0〜2の数字をセットすると「スターバックス」(登録商標)に対応する文字ベクトルを作ることができる。
[語句間の類似度]
語句間の類似度は、語句を変換した文字ベクトルを用いて次の式で定義する。
Figure 2009217544
ただし、X:第1の語句に係るベクトル
:第2の語句に係るベクトル
このように、語句間の類似度は文字ベクトル間の演算として定義することができる。本実施形態では、語句Aと語句Bとの類似度を対応する文字ベクトルの内積を各文字ベクトルのノルム(長さ)の積で割ったもので定義している。これは、2つの文字ベクトルがなす角度(θ)の余弦(cosθ)である。ベクトルの要素数は多いが殆どが0なので、上記式の計算は容易である。
[語句間類似度集計テーブル]
図7は、本実施形態に係る語句間類似度集計テーブルを示す図である。
語句間類似度集計テーブルは、対応語検索対象語と対応語辞書に登録された原語との類似度を原語に対応づけられた対応語ごとに整理集計したテーブルである。図7では、語句Aを対応語検索対象語とした場合の例を示している。
簡単のために対応語辞書に登録された対応語は3個(対応語L、M、N)とし、それぞれの対応語2000には図7に示した原語2001が対応づけられているものとする。
語句Aとそれぞれの原語との類似度は上記の方法で計算されるので、それを語句Aと原語との語句間類似度2002の欄に記入する。そして、それを対応語2000の区分ごとに集計したものを語句間類似度合計2003に記入している。この語句間類似度合計2003に基づいて、対応語候補選択手段150は語句Aに付すべき対応語候補を選択する。
対応語候補を選択する基準としては、予め閾値を定めておいて語句間類似度合計2003がその閾値を超えた対応語を選択するようにしてもよい。この場合、もし対応語がまったく選択されなかった場合は、閾値を下げて1以上の対応語が選択されるまで繰り返せばよい。また別の方法として、語句間類似度合計2003の大きい方から所定の個数分の対応語を選択するようにしてもよい。
前者であれば、一定の関連が想定されるすべての対応語を候補として選ぶことができるので、最終的に信頼度の高い対応語を見つけることができると期待できる。一方、後者であれば、候補となる対応語の数が決まるので、その後の処理が一定の処理時間内に行えるというメリットがある。
[共起ヒット数テーブル]
図8は、本実施形態に係る共起ヒット数テーブルを示す図である。
共起ヒット数テーブルは、語句Aに付すべき対応語候補として対応語X、Y、Zの3つの対応語が選択された場合の、それぞれの対応語候補と語句AとがWebページ上でともに出現する件数を示したものである。例えば、対応語Xの場合は、対応語Xと語句Aをアンド条件で検索し、そのヒット数を取得すればよい。Webページに出現する回数が所定の閾値以上であれば対応語としての妥当性を確認することができる。
なお、共起ヒット数は2つの語句の相関度を測る尺度の一例に過ぎず、共起ヒット数の他に、シンプソン係数、相互情報量、ダイス係数、ジャカード係数、コサイン類似度等を用いることもできる。適宜適切だと思われるものを用いればよい。
[対応語生成処理のフローチャート]
図9は、本実施形態に係る対応語生成処理のフローチャートである。この処理は対応語生成サーバ20のプログラムによって行われる。
S100:対応語生成サーバ20は、対応語検索対象語を取得する。ここで、対応語生成サーバ20は対応語検索対象語取得手段110として機能する。
S110:対応語生成サーバ20は、対応語検索対象語をベクトル化する。ここで、対応語生成サーバ20は語句ベクトル化手段120として機能する。こうすることによりコンピュータ処理に適した形となる。
S120:対応語生成サーバ20は、対応語辞書に登録されている原語の1つを取得しベクトル化する。
S130:対応語生成サーバ20は、S110で得た対応語検索対象語のベクトルとS120で得た原語のベクトルとの間の類似度を計算する。ここで、対応語生成サーバ20は語句間類似度算出手段130として機能する。
S140:対応語生成サーバ20は、S130で計算した類似度を原語に対応する対応語ごとに集計する。ここで、対応語生成サーバ20は対応語別評価値付与手段140として機能する。
S150:対応語生成サーバ20は、対応語辞書に登録されているすべての原語について処理を終了したか否かを判定する。そして未だ終了していない場合(S150:NO)は、S120に戻って、別の原語についてS120からS140までの処理を繰り返す。すべての原語について処理を終了した場合(S150:YES)は、S160に進む。
S160:対応語生成サーバ20は、対応語ごとに集計された類似度に基づき対応語候補を選択する。ここで、対応語生成サーバ20は対応語候補選択手段150として機能する。このように対応語候補の選択プロセスを設けているので、その基準を適宜変更することにより、目的に適った精度の対応語を見つけることができる。
S170:対応語生成サーバ20は、原語と対応語候補との共起ヒット数を取得する。
S180:対応語生成サーバ20は、共起ヒット数が基準値以上か否かを判定する。基準値以上の場合(S180:YES)は、S190に進む。基準値に満たない場合(S180:NO)は、S200に進む。ここで、対応語生成サーバ20は、相関度判定手段160として機能する。
S190:対応語生成サーバ20は、当該対応語候補を対応語検索対象語に付すべき対応語として決定する。ここで、対応語生成サーバ20は、対応語決定手段170として機能する。
S200:対応語生成サーバ20は、選択したすべての対応語候補について処理が終了したか否かを判定する。そして未だ終了していない場合(S200:NO)は、S170に戻って、別の原語についてS170からS190までの処理を繰り返す。すべての原語について処理を終了した場合(S200:YES)は、処理を終了する。
本実施形態によれば、対応語検索対象語に付すべき対応語を見つけるために、文章を形態素解析し、その形態素を略語生成規則に当てはめて略語を生成するような方法を採らないので、一見新規な語句に対しても、実際に使用されている対応語群の中から適正な対応語を見つけることができる。
また、一定の基準で選び出した候補の中からふるいにかけ妥当なものを絞り込んでいくので、漏れのない範囲から最適な対応語を選び出すことができる。
また、本実施形態で説明した文字ベクトルの次元数は巨大になるが、殆どの要素は0であるので、上記で示した計算方法によれば計算は容易である。したがって、高速に類似度を計算することができる。
このようにして、簡単に対応語を求めることができるので、この仕組みを略語の生成に適用すると、例えば、「スターバックス」(登録商標)を検索キーワードとして検索する場合にも、検索エンジンの側で自動的に略称である「スタバ」(登録商標)を生成し、検索キーワードに付加して検索できるので、「スターバックス」(登録商標)という言葉がなく「スタバ」(登録商標)という言葉しかないWebページであっても漏れなく検索することが可能となる。
また、例えば、「スターバックス」(登録商標)を検索キーワードとして検索する場合に、検索エンジンの側で自動的に生成した「スタバ」(登録商標)という略称を、検索結果に関連検索語として提示して、検索キーワードとしての採否はユーザに任せるようにしてもよい。
利用方法としては、前記のように自動的に略語を検索キーワードに付加するのではなく、確度の高い略語をユーザに提示して、ユーザの選択に委ねるようにすることももちろん可能である。
以上、本発明の実施形態について説明したが、本発明は上述した実施形態に限るものではない。また、本発明の実施形態に記載された効果は、本発明から生じる最も好適な効果を列挙したに過ぎず、本発明による効果は、本発明の実施形態に記載されたものに限定されるものではない。
本発明の一実施形態に係る対応語生成装置と関連要素の全体構成を示す図である。 本発明の一実施形態に係る対応語生成装置の機能構成を示す図である。 本発明の一実施形態に係る対応語生成装置のハードウェア構成を示す図である。 本発明の一実施形態に係る対応語辞書を示す図である。 本発明の一実施形態に係る文字ベクトル構成図である。 本発明の一実施形態に係る文字ベクトル例を示す図である。 本発明の一実施形態に係る語句間類似度集計テーブルを示す図である。 本発明の一実施形態に係る共起ヒット数テーブルを示す図である。 本発明の一実施形態に係る対応語生成処理のフローチャートである。
符号の説明
10 ユーザ端末
20 対応語生成サーバ
30 対応語辞書
40 Webページ群
50 インターネット
100 対応語生成装置
200 バスライン
300 制御部
430 記憶装置

Claims (12)

  1. 原語と対応語とを対応づけて記録した対応語辞書と、
    対応語検索対象語を取得する対応語検索対象語取得手段と、
    2つの語句間の類似度を算出する語句間類似度算出手段と、
    前記語句間類似度算出手段により前記対応語検索対象語と前記原語との類似度を前記対応語辞書に記録されたすべての原語について求め、該類似度に基づいて該原語に対応づけられた対応語ごとに評価値を付与する対応語別評価値付与手段と、
    前記対応語別評価値付与手段により付与された評価値に基づき1以上の対応語候補を選択する対応語候補選択手段と、
    を備える対応語生成装置。
  2. 前記対応語候補選択手段により選択された対応語候補と前記対応語検索対象語との相関度を現実のWebページに基づき求める相関度判定手段と、
    前記相関度判定手段により求めた相関度に基づいて、対応語を決定する対応語決定手段と、
    をさらに備えることを特徴とする請求項1に記載の対応語生成装置。
  3. 前記相関度判定手段が求める相関度は、対応語候補と前記対応語検索対象語とがともに出現するWebページの数であることを特徴とする請求項2に記載の対応語生成装置。
  4. 前記対応語決定手段が行う決定は、前記相関度判定手段により求めた相関度が、所定の基準値を超えているか否かにより行うことを特徴とする請求項2または請求項3に記載の対応語生成装置。
  5. 前記対応語別評価値付与手段により付与される評価値は、前記類似度を前記対応語ごとに集計した値であることを特徴とする請求項1から請求項4のいずれかに記載の対応語生成装置。
  6. 語句をベクトル化する語句ベクトル化手段をさらに備え、
    前記語句間類似度算出手段が算出する類似度は、前記語句ベクトル化手段による2つの語句に係るベクトル間の演算によって求められることを特徴とする請求項1から請求項5のいずれかに記載の対応語生成装置。
  7. 前記類似度は、前記ベクトルの
    Figure 2009217544
    ただし、X:第1の語句に係るベクトル
    :第2の語句に係るベクトル
    により計算することを特徴とする請求項6に記載の対応語生成装置。
  8. 前記語句ベクトル化手段による語句のベクトル化は、語句を構成可能なすべての文字を基準として該文字がベクトル化する語句に出現する個数に基づいて行うものであることを特徴とする請求項6または請求項7に記載の対応語生成装置。
  9. 前記対応語候補選択手段が行う選択は、前記評価値が所定の基準値を超えている対応語候補を選択することにより行うことを特徴とする請求項1から請求項8のいずれかに記載の対応語生成装置。
  10. 前記対応語候補選択手段が行う選択は、前記評価値の大きい方から所定の個数の対応語候補を選択することにより行うことを特徴とする請求項1から請求項9のいずれかに記載の対応語生成装置。
  11. コンピュータが原語と対応語とを対応づけて記録した対応語辞書を用いて行う方法であって、
    対応語検索対象語を取得する対応語検索対象語取得ステップと、
    2つの語句間の類似度を算出する語句間類似度算出ステップと、
    前記対応語検索対象語と前記原語との類似度を前記対応語辞書に記録されたすべての原語について求め、該原語に対応づけられた対応語ごとに集計する対応語別類似度集計ステップと、
    前記集計した結果に基づき1以上の対応語候補を選択する対応語候補選択ステップと、
    前記選択された対応語候補と前記対応語検索対象語との相関度を現実のWebページに基づき求める相関度判定ステップと、
    前記相関度に基づいて、対応語を決定する対応語決定ステップと、
    を備える対応語生成方法。
  12. 請求項10に記載の方法をコンピュータに実行させるプログラム。
JP2008060650A 2008-03-11 2008-03-11 文字ベクトルを用いた略語生成装置、方法及びプログラム Active JP4953459B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008060650A JP4953459B2 (ja) 2008-03-11 2008-03-11 文字ベクトルを用いた略語生成装置、方法及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008060650A JP4953459B2 (ja) 2008-03-11 2008-03-11 文字ベクトルを用いた略語生成装置、方法及びプログラム

Publications (2)

Publication Number Publication Date
JP2009217544A true JP2009217544A (ja) 2009-09-24
JP4953459B2 JP4953459B2 (ja) 2012-06-13

Family

ID=41189322

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008060650A Active JP4953459B2 (ja) 2008-03-11 2008-03-11 文字ベクトルを用いた略語生成装置、方法及びプログラム

Country Status (1)

Country Link
JP (1) JP4953459B2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018077850A (ja) * 2016-11-10 2018-05-17 株式会社Nttドコモ 単語正規化方法、単語正規化装置及び機械翻訳方法、機械翻訳装置
JP2019503025A (ja) * 2016-01-11 2019-01-31 アリババ グループ ホウルディング リミテッド 地図上の関心地点の略称を得る方法及び装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1125117A (ja) * 1997-07-08 1999-01-29 Oki Electric Ind Co Ltd 語検索装置
JP2004326367A (ja) * 2003-04-23 2004-11-18 Sharp Corp テキスト解析装置及びテキスト解析方法、ならびにテキスト音声合成装置
JP2007200252A (ja) * 2006-01-30 2007-08-09 Ricoh Co Ltd 省略語生成・妥当性評価方法、同義語データベース生成・更新方法、省略語生成・妥当性評価装置、同義語データベース生成・更新装置、プログラム、記録媒体

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1125117A (ja) * 1997-07-08 1999-01-29 Oki Electric Ind Co Ltd 語検索装置
JP2004326367A (ja) * 2003-04-23 2004-11-18 Sharp Corp テキスト解析装置及びテキスト解析方法、ならびにテキスト音声合成装置
JP2007200252A (ja) * 2006-01-30 2007-08-09 Ricoh Co Ltd 省略語生成・妥当性評価方法、同義語データベース生成・更新方法、省略語生成・妥当性評価装置、同義語データベース生成・更新装置、プログラム、記録媒体

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019503025A (ja) * 2016-01-11 2019-01-31 アリババ グループ ホウルディング リミテッド 地図上の関心地点の略称を得る方法及び装置
US11255690B2 (en) 2016-01-11 2022-02-22 Advanced New Technologies Co., Ltd. Method and apparatus for obtaining abbreviated name of point of interest on map
JP2018077850A (ja) * 2016-11-10 2018-05-17 株式会社Nttドコモ 単語正規化方法、単語正規化装置及び機械翻訳方法、機械翻訳装置
JP7120751B2 (ja) 2016-11-10 2022-08-17 株式会社Nttドコモ 単語正規化方法、単語正規化装置及び機械翻訳方法、機械翻訳装置

Also Published As

Publication number Publication date
JP4953459B2 (ja) 2012-06-13

Similar Documents

Publication Publication Date Title
JP4701292B2 (ja) テキスト・データに含まれる固有表現又は専門用語から用語辞書を作成するためのコンピュータ・システム、並びにその方法及びコンピュータ・プログラム
JP5078173B2 (ja) 多義性解消方法とそのシステム
JPH11110416A (ja) データベースからドキュメントを検索するための方法および装置
JP4778474B2 (ja) 質問応答装置、質問応答方法、質問応答プログラム並びにそのプログラムを記録した記録媒体
JP5216063B2 (ja) 未登録語のカテゴリを決定する方法と装置
JP5710581B2 (ja) 質問応答装置、方法、及びプログラム
JP5321583B2 (ja) 共起辞書生成システム、スコアリングシステム、共起辞書生成方法、スコアリング方法及びプログラム
JP2002215619A (ja) 翻訳文書からの翻訳文抽出方法
US7475005B2 (en) Translation system, dictionary updating server, translation method, and program and recording medium for use therein
JP2000194696A (ja) サンプルテキスト基調言語自動識別方法
JP2000200281A (ja) 情報検索装置および情報検索方法ならびに情報検索プログラムを記録した記録媒体
JP4953459B2 (ja) 文字ベクトルを用いた略語生成装置、方法及びプログラム
JP4102153B2 (ja) インターネットを利用した文字認識の後処理装置
JP2004355550A (ja) 自然文検索装置、その方法及びプログラム
CN115964474A (zh) 一种政策关键词抽取方法、装置、存储介质及电子设备
JP4938515B2 (ja) 単語間相関度計算装置および方法、プログラム並びに記録媒体
JP7117168B2 (ja) 情報処理装置および情報処理方法
JP6689466B1 (ja) 文構造ベクトル化装置、文構造ベクトル化方法、及び文構造ベクトル化プログラム
EP3203384A1 (en) Method, device, and computer program for providing a definition or a translation of a word belonging to a sentence as a function of neighbouring words and of databases
JP6181890B2 (ja) 文献解析装置、文献解析方法およびプログラム
JP3952964B2 (ja) 読み情報決定方法及び装置及びプログラム
Hennig et al. Spiga-a multilingual news aggregator
JP5094096B2 (ja) 有名人の別表現の自動抽出装置、方法
JP4592556B2 (ja) 文書検索装置、文書検索方法および文書検索プログラム
JP2007148630A (ja) 特許分析装置、特許分析システム、特許分析方法およびプログラム

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090626

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20090626

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110607

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110805

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120214

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20120312

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120312

R150 Certificate of patent or registration of utility model

Ref document number: 4953459

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150323

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250