JP2007200252A - 省略語生成・妥当性評価方法、同義語データベース生成・更新方法、省略語生成・妥当性評価装置、同義語データベース生成・更新装置、プログラム、記録媒体 - Google Patents

省略語生成・妥当性評価方法、同義語データベース生成・更新方法、省略語生成・妥当性評価装置、同義語データベース生成・更新装置、プログラム、記録媒体 Download PDF

Info

Publication number
JP2007200252A
JP2007200252A JP2006021183A JP2006021183A JP2007200252A JP 2007200252 A JP2007200252 A JP 2007200252A JP 2006021183 A JP2006021183 A JP 2006021183A JP 2006021183 A JP2006021183 A JP 2006021183A JP 2007200252 A JP2007200252 A JP 2007200252A
Authority
JP
Japan
Prior art keywords
abbreviation
validity
abbreviations
generation
evaluation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2006021183A
Other languages
English (en)
Inventor
Eiji Kenmochi
栄治 剣持
Tetsuo Nagatsuka
哲郎 長束
Atsuo Shimada
敦夫 嶋田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP2006021183A priority Critical patent/JP2007200252A/ja
Publication of JP2007200252A publication Critical patent/JP2007200252A/ja
Pending legal-status Critical Current

Links

Images

Abstract

【課題】 生成した省略語をクエリとしてWWW上のリソースに対し検索を行った結果をもとに省略語の妥当性を判断する仕組みを提供する。
【解決手段】 ステップS1において、単語の省略語を生成する省略語生成処理を実行する。次にステップS2において、生成した省略語を検索語としてインターネット上のリソースを検索する評価検索処理を実行する。そして、続くステップS3において、評価検索処理の評価検索の結果をもとに省略語の妥当性を判定する妥当性判定処理を行い、妥当であると判定した場合はステップS4において省略語を出力する省略語出力処理を実行する。
【選択図】 図3

Description

本発明は、省略語生成・妥当性評価方法、同義語データベース生成・更新方法、省略語生成・妥当性評価装置、同義語データベース生成・更新装置に関するものである。
近年、WWW(World Wide Web)などのインターネット技術の発達に伴い、容易に大量の文書データにアクセスすることが可能になり、大量の文書データの中から興味のある文書データのみを探し出す技術として様々な文書検索技術が提案されている。また大量の文書データをいくつかの類似する群にわけることで文書データの構造を概観するための技術として様々な文書分類技術が提案されている。
文書検索技術も文書分類技術も文書データ内の単語情報を利用するものであるため、必然的に単語の同義性の影響を受けてしまう。例えば、“私”という単語は、“僕”、“我”、“小生”、“手前”など状況によって使い分けられるので、例えば、検索の問合わせ語として、“私”と入力しても、検索対象文書データ内では“我”となっていれば、検索されないし、また、2つの文書で“僕”と“私”となっていれば、これらは異なる単語情報として認識されてしまう。
このような問題は、同義語データベースを利用することにより対処可能であり、従来から多くは人手で生成・更新されている。
ところで、同義語には、外来語(“会議”と“ミーティング”)、省略形(“破壊活動防止法”と“破防法”)、通称(“首相”と“内閣総理大臣”)、年号(“西暦2004年”と“平成16年”)、立場の違い(“公的資金”と“税金”)などに種別可能であるが、インターネットの急速な発達により人手による同義語の整備は非常に困難であると考えられ、それ故同義語データベースの自動的な生成・更新技術が望まれている。
ここで、同義語のうち省略形に着目すると、単語の省略形生成技術はすでにいくつか存在している。
例えば、特許文献1の発明は、2つの文字列で文字の比較を行い一方の文字列を構成する文字がすべてもう一方の文字列にも出現し、かつ出現順序も互いに等しい場合、前者の文字列を後者の文字列の省略語とするものである。
また、特許文献2の発明は、文書データに対し形態素解析を適用し、特定の条件をみたす形態素列(例えば、名詞連鎖)のペアを比較し、共通する文字列長が一方の形態素列長と同じであれば、それをもう一方の形態素列の省略語とするとともに、文書データ内での形態素列の出現順序を考慮することにより、より適切に省略語ベースの同義語セットを生成するものである。
また特許文献3の発明は、辞書に登録する文字列に対し、形態素解析を施し、各形態素の文字の一部をもとに登録文字列の省略語を生成し、それも合わせて辞書に登録すものであり、また、対訳辞書をもとに各対訳単語の一部をもとに登録文字列の別の省略語を生成することで、多言語も考慮した同義語セットを生成するものである。さらに、省略語は自動生成するため、その妥当性判定をユーザにゆだねる仕組みも用意されている。
また特許文献4の発明は、入力される文字列に対し、形態素解析を施し、特定の頻度で出現する特定の単語列に対し、特定の規則に基づき省略語を生成するものであり、生成した省略語と源単語列との相互置換が可能である。さらに、生成した省略語の妥当性判定をーザにゆだねる仕組みも用意されている。
特許第2792147号 特開平7−210578号公報 特開平9−311860号公報 特開平11−328166号公報
ところで、上記したような先行技術は、省略語を同一文中に存在する省略語を推定・検出するものと、源単語から自動生成するものの2つに大別できる。
前者は、文中から省略語を選出するため、対象となる文を生成したユーザにとっては妥当な省略語であるが、それが一般的、すなわち不特定多数にとって妥当であるという保証はない。また後者は、省略語は一定の規則に基づき源単語から自動生成するため、省略語生成規則がいかに高性能であろうとも、やはり最終的にはユーザによる妥当性の判定が必要であることは容易に予想され、ここでもまた省略語の一般的な妥当性は保証されていないといえる。
前述のとおりWWW上には多数のユーザにより生成された膨大なテキストデータが存在している。したがって、WWW上にはある複数人が作成した任意の源単語の省略語が存在していると仮定することは妥当であると考えられる。即ち、省略語を生成した場合、その評価をWWW上のリソースに求めることによりその省略語に対する一般的な妥当性評価が行えるものと考えられる。
そこで、本発明では、生成した省略語をクエリとしてWWW上のリソースに対し検索を行った結果をもとに省略語の妥当性を判断する仕組みを提供することを目的とする。また、妥当であると判定された省略語を源単語の同義語とみなし、同義語データベースを生成・更新する仕組みを提供することも目的とする。
上記目的を達成するため、請求項1に記載の発明は、単語の省略語を生成する省略語生成処理と、生成した省略語を検索語としてインターネット上のリソースを検索する評価検索処理と、評価検索結果に基づいて省略語の妥当性を判定する妥当性判定処理と、妥当性が認められた省略語を出力する省略語出力処理と、から成る省略語生成・妥当性評価方法を特徴とする。
また請求項2に記載の発明は、省略語を取得する省略語取得処理と、省略語を検索語としてインターネット上のリソースを検索する評価検索処理と、評価検索結果に基づいて省略語の妥当性を判定する妥当性判定処理と、妥当性が認められない省略語を単語省略語データベースから削除する省略語削除処理と、から成る省略語生成・妥当性評価方法を特徴とする。
請求項3に記載の発明は、請求項1又は請求項2に記載の省略語生成・妥当性評価方法と、省略語と源単語の単語対を同義語データベースに登録する同義語登録処理と、から成る同義語データベース生成・更新方法を特徴とする。
請求項4に記載の発明は、請求項3に記載の同義語データベース生成方法において、インターネット上のリソースから定期的にテキストデータを自動的に取得する自動テキストデータ取得処理を備え、取得したテキストデータを用いて自動的に省略語及び同義語で生成・更新を行う同義語データベース生成・更新方法を特徴とする。
請求項5に記載の発明は、単語の省略語を生成する省略語生成手段と、前記省略語生成手段により生成した省略語を検索語としてインターネット上のリソースを検索する評価検索手段と、前記評価検索手段の評価検索結果に基づいて省略語の妥当性を判定する妥当性判定手段と、前記妥当性判定手段により妥当性が認められた省略語を出力する省略語出力手段と、を備える省略語生成・妥当性評価装置を特徴とする。
請求項6に記載の発明は、省略語を生成する源情報である単語とその省略形が記録された単語省略語データベースと、省略語を取得する省略語取得手段と、前記省略語を検索語としてインターネット上のリソースを検索する評価検索手段と、前記評価検索手段の評価検索結果に基づいて省略語の妥当性を判定する妥当性判定手段と、前記妥当性判定手段により、妥当性が認められない省略語を前記単語省略語データベースから削除する省略語削除手段と、を備える省略語生成・妥当性評価装置を特徴とする。
請求項7に記載の発明は、請求項5又は請求項6に記載の省略語生成・妥当性評価装置と、同義語集合が記録された同義語データベースと、省略語と源単語の単語対を同義語データベースに登録する同義語登録手段と、を備える同義語データベース生成・更新装置を特徴とする。
請求項8に記載の発明は、請求項7に記載の同義語データベース生成・更新装置において、インターネット上のリソースから定期的にテキストデータを自動的に取得する自動テキストデータ取得手段を備え、前記自動テキストデータ取得手段により取得したテキストデータを用いて自動的に省略語及び同義語で生成・更新を行う同義語データベース生成・更新装置を特徴とする。
請求項9に記載の発明は、請求項1又は請求項2に記載の省略語生成・妥当性評価方法を実行するプログラムであることを特徴とする。
請求項10に記載の発明は、請求項3又は請求項4に記載の同義語データベース生成・更新方法を実行するプログラムであることを特徴とする。
請求項11に記載の発明は、請求項9又は請求項10に記載したプログラムをコンピュータが読み取り可能な形式により記録されている記録媒体を特徴とする。
本発明によれば、生成した省略語をクエリとしてWWW上のリソースに対し検索を行った結果に基づいて省略語の妥当性を判断することが可能になる。
また本発明によれば、妥当であると判定された省略語を源単語の同義語とみなし、同義語データベースを生成・更新することが可能になる。
以下、図面を参照しながら本発明の構成と実施例を説明する。
図1は本発明の一実施形態である省略語生成・妥当性評価装置を実現するコンピュータの構成例である。図1には、キーボード12と、通信I/O13と、ディスプレイ14と、プリンター15と、メモリ16と、CPU(Central Processing Unit)17と、ハードディスク18と、それらを接続するバス10と、ネットワーク11とが示されている。
キーボード12は、文書を登録する入力手段である。通信I/O13は、外部からの信号を受信したり、本実施形態の情報処理装置から信号を送信する通信手段である。CPU17は、メモリ16に記録された手順に従ってプログラムを実行する。メモリ16は、記憶手段である。通常は、揮発性または不揮発性のものがある。ハードディスクは不揮発性の記憶手段である。
ディスプレイ14とプリンター15は、出力手段である。通信I/O13は、モデムやターミナルアダプタなどが想定でき、通信回線を介してイントラネット、またはインターネットに接続されているサーバなどからデータを受信できる。
図2は本発明の省略語生成・妥当性評価装置の第1の実施形態を示したブロック図である。
この図2に示す省略語生成・妥当性評価装置は、単語の省略語を生成する省略語生成手段21と、生成した省略語を検索語としてインターネット上のリソースを検索する評価検索手段22と、評価検索手段22の評価検索の結果をもとに省略語の妥当性を判定する妥当性判定手段23と、妥当性判定手段23で妥当であると判定された省略語を出力する省略語出力手段24とにより構成される。
また図3は本発明の省略語生成・妥当性評価方法の第1の実施形態を示したフローチャートである。なお、この場合の処理は図1に示したCPU17がメモリ16、或いはハードディスク18に記録された手順に従ってプログラムを実行することにより実現される。
この場合、先ず、ステップS1において、単語の省略語を生成する省略語生成処理を実行する。次にステップS2において、生成した省略語を検索語としてインターネット上のリソースを検索する評価検索処理を実行する。そして、続くステップS3において、評価検索処理の評価検索の結果をもとに省略語の妥当性を判定する妥当性判定処理を行い、妥当であると判定した場合はステップS4において省略語を出力する省略語出力処理を実行する。
この場合、省略語生成処理は、特定の単語の省略語を生成するものであり、その生成方法は源単語とその省略語を取得可能であれば特に限定されるものではない。
本実施形態では、入力されるテキストに対し、形態素解析を適用し、形態素の品詞が体言系品詞(本実施形態では、名詞、未登録品詞、接辞およびそれに類する品詞と定義する)である形態素が2連接以上する形態素列(対象形態素列)を抽出し、対象形態素列のうち体言系品詞の形態素から、最後尾以外の形態素は、形態素の1文字目が漢字の場合は1文字(規則1)、仮名の場合は先頭から最大2文字を抽出し(規則2)、また最後尾の形態素は、前記規則に基づく文字列に加え、全形態素(規則3)の2つを抽出し、その結果2種類の省略語を生成する過程を示すこととする。
図4に入力テキストの一例を示す。また図5に図4に示した2つの入力テキストを形態素解析した結果を示す。なお、本実施形態では、形態素解析には特殊な仕様を要求しないため、既存の手法を利用すればよく、図5では日本語形態素解析系:chasen(http://chasen.aist-nara.ac.jp/hiki/ChaSen/)を試用した結果である。なお、図5において、記号/は各形態素の区切りを示し、また形態素の下段では、“体”は体言性品詞を、また“他”は体言性以外の品詞を示している。
次に、図5の形態素解析結果から2連接以上の体言系品詞の形態素列を抽出した結果を図6に示す。なお、図5と同じく図6においても記号/を形態素区切りとし、また、簡便のために各形態素列には識別番号を付置している。
次に、図6に示す対象形態素列から前述の生成規則を基に省略語を生成した結果を図7に示す。なお、図7においても簡便のため識別番号を付置しているが、図6の識別番号を2桁目の数字とし、1桁目を図6の対応する対象形態素列から生成される個々の省略語の識別子としている。
例えば、図6の識別番号2の対象形態素列において、1つ目の形態素:情報は漢字で構成されているので、規則1により文字列:情が抽出される。つぎに、2つ目の形態素:システムはカタカナで構成されているため規則2により文字列:シスが抽出される。最後の形態素:研究所は漢字で構成されているため、規則1および規則3により文字列:研と文字列:研究所が抽出される。結果、これら抽出した文字列を結合して、情シス研(21)と情シス研究所(22)を得る。
評価検索処理は、生成した省略語を問合わせ語として、WWW上のリソースを対象として検索を実行する。本発明では、検索システムに特殊な仕様を要求せず、WWW上のリソースを検索できるものであれば、どのようなシステムでも利用可能である。
高性能なWWW上の検索システムである、Google(http://www.google.co.jp)を用いて、図7に示す省略語を問合わせ語とした検索結果件数を図8に示す。なお、図8においては図7の識別番号を利用しており、また検索結果は2004年9月26日に実施したものである。
さらに、本発明ではWWW上のリソースを対象としているが、企業などの場合、社内イントラネットのテキストデータを対象としてもよい。
妥当性判定処理は、評価検索結果を用いて生成した省略語の妥当性を判定する。本実施形態では、検索結果が1件以上存在するものを妥当性あり、0件のものを妥当性なしという判定条件を用いることにすると図8の結果より妥当性ありとなるのは、識別番号21、31、32の省略語、即ち、“情シス研”、“情処学”、“情処学会”が妥当な省略語となる。なお、本実施形態では、非常に安易な判定条件を用いているが、例えば、検索結果の件数に加え、ページの重要度(例えば、googleのページランク値)やページ間のトポロジカルな距離などを組み合わせたより複雑な評価尺度を用いてもよいし、また同一の対象形態素列から生成された省略語は、評価値によって順位付けを行っても良い。
省略語出力処理は、妥当性判定処理で妥当性ありと判定された省略語を適切な形式で出力する。
図9は本発明の省略語生成・妥当性評価装置の第2の実施形態を示したブロック図である。なお、図2と同一部位には同一符号を付して詳細な説明は省略する。
この図9に示す省略語生成・妥当性評価装置は、省略語を取得する省略語取得手段31と、省略語を検索語としてインターネット上のリソースを検索する評価検索手段22と、評価検索手段22の評価検索の結果をもとに省略語の妥当性を判定する妥当性判定手段23と、妥当性判定手段23により妥当性が認められない省略語を単語省略語データベース33から削除する省略語削除手段32と、省略語を生成する源情報である単語(源単語)とその省略形が記録された単語省略語データベース33とにより構成される。この場合は、省略語が既に生成され、単語省略語データベース33に登録されている場合であるため、単語省略語データベース33からの省略語の取得と妥当性なしとなった場合の省略語のデータベース33から削除するようにした点が図2に示した省略語生成・妥当性評価装置との差異である。
また図10は本発明の省略語生成・妥当性評価方法の第2の実施形態を示したフローチャートである。なお、この場合の処理は図1に示したCPU17がメモリ16、或いはハードディスク18に記録された手順に従ってプログラムを実行することにより実現される。
この場合、先ず、ステップS11において、単語省略語データベース33から省略語を取得する省略語取得処理を実行する。次にステップS12において、単語省略語データベース33から取得した省略語を検索語としてインターネット上のリソースを検索する評価検索処理を実行する。そして、続くステップS13において、評価検索処理の評価検索の結果をもとに省略語の妥当性を判定する妥当性判定処理を行い、妥当でないと判定した場合はステップS14において単語省略語データベース33から省略語を削除する省略語削除処理を実行する。
この場合、省略語取得処理は、単語省略語データベース33から妥当性を判定するための省略語を取得する。単語省略語データベース33に登録される源単語と省略語は、前述のような省略語生成処理により生成したものを登録してもよいし、またユーザが手動で登録してもよい。
図11に単語省略語データベースの一例を示す。図11では3つのアイテムから構成される3つのレコードがあり、各レコードが1つの単語省略語セットを構成し、第一アイテムが源単語、第二第三アイテムがその省略語になっている。したがって、第二、第三アイテムから要素を取得することで省略語を取得することができる。
省略語削除処理は、単語省略語データベース33から妥当性なしと判定された省略語を削除する。例えば、省略語の妥当性判定が前例のとおりであるとすると、図11において、“形解シス”、“形解システム”、及び“情シス研究所”の省略語が妥当性なしであるので、データベースの該当位置に空文字(図12では簡便のためNULLと記す)を代入することで、省略語を削除することとすると図12のようになる。また、図12において、レコード1の“形態素解析システム”は、全省略語が妥当性なしと判定されるため、レコード全体を削除してもよい。
図13は本発明の同義語データベース生成・更新装置の実施形態を示したブロック図である。
この図13に示す同義語データベース生成・更新装置は、自動的にテキストデータを取得する自動テキストデータ取得手段41と、図2又は図9に示した省略語生成・妥当性評価装置42と、省略語と源単語の単語対を同義語データベースに登録する同義語登録手段43と、同義語集合が記録された同義語データベース44とにより構成される。
このように構成される同義語データベース生成・更新装置では、形態素列と、妥当性が保証されたその省略語を同義語集合とみなし、同義語データベースを生成・更新するものである。
図14は同義語データベースのデータ構造の一例を示した図である。
この図14に示される同義語データベースは、各行が各同義語集合であり、各セルが同義語を構成する文字列であり、3つの同義語集合を管理しているデータベースである。また、各行を識別するために識別番号が付与されている。例えば、識別番号1の同義語集合は、“北大西洋条約機構”、“NATO”、“North Atlantic Treaty Organization”はそれぞれがそれぞれの同義語である。
図15は本発明の同義語データベース生成・更新方法の実施形態を示したフローチャートである。なお、この場合の処理は図1に示したCPU17がメモリ16、或いはハードディスク18に記録された手順に従ってプログラムを実行することにより実現される。
この場合は、ステップS21において、テキストデータを自動的に取得する自動テキストデータ取得処理を実行する。次に、ステップS22において、前述したような省略語生成・妥当性評価処理を実行する。そして続くステップS23において、省略語と源単語の単語対を同義語データベース44に登録する同義語登録処理を行うようにする。
また本発明は、上記したような省略語生成・妥当性評価方法、及び同義語データベース生成・更新方法をプログラム化し、予めROMのような記録媒体に書き込んでおき、ネットワーク対応周辺機器や外部認証サーバにROMを装着して、そのプログラムをマイクロプロセッサで実行することによって、本発明の目的が達成されることは言うまでもない。この場合、記録媒体から読み出されて実行された状態が上述した実施形態の機能を実現することになり、そのプログラム及びそのプログラムを記録した記録媒体も本発明を構成することになる。
なお、上記したような省略語生成・妥当性評価方法、及び同義語データベース生成・更新方法を実現するプログラムは、半導体媒体(例えば、ROM、不揮発性メモリ等)、光媒体(例えば、DVD、MO、MD、CD等)、磁気媒体(例えば、磁気テープ、フレキシブルディスク等)等のいずれの形態の記録媒体で提供されてもよい。あるいは、ネットワーク等の通信網を介して記憶装置に格納されたプログラムをサーバコンピュータから直接供給を受けるようにしてもよい。この場合、このサーバコンピュータの記憶装置も本発明の記録媒体に含まれる。
本発明の一実施形態である情報処理装置を実現するコンピュータの構成例を示す図。 本発明の省略語生成・妥当性評価装置の第1の実施形態を示したブロック図。 本発明の省略語生成・妥当性評価方法の第1の実施形態を示したフローチャート。 入力テキストの一例を示した図。 図4に示した2つの入力テキストを形態素解析した結果を示した図。 図5の形態素解析結果から2連接以上の体言系品詞の形態素列を抽出した結果を示した図。 図6に示す対象形態素列から前述の生成規則を基に省略語を生成した結果を示した図。 図7に示す省略語を問合わせ語とした検索結果件数を示した図。 本発明の省略語生成・妥当性評価装置の第2の実施形態を示したブロック図。 本発明の省略語生成・妥当性評価方法の第2の実施形態を示したフローチャート。 単語省略語データベースの一例を示した図。 削除語の単語省略語データベースの一例を示した図。 本発明の同義語データベース生成・更新装置の実施形態を示したブロック図。 同義語データベースのデータ構造の一例を示した図。 本発明の同義語データベース生成・更新方法の実施形態を示したフローチャート。
符号の説明
10…バス、11…ネットワーク、12…キーボード、13…通信I/O、14…ディスプレイ、15…プリンター、16…メモリ、17…CPU、18…ハードディスク、21…省略語生成手段、22…評価検索手段、23…妥当性判定手段、24…省略語出力手段、31…省略語取得手段、32…省略語削除手段、33…単語省略語データベース、41…自動テキストデータ取得手段、42…省略語生成・妥当性評価装置、43…同義語登録手段、44…同義語データベース

Claims (11)

  1. 単語の省略語を生成する省略語生成処理と、生成した省略語を検索語としてインターネット上のリソースを検索する評価検索処理と、評価検索結果に基づいて省略語の妥当性を判定する妥当性判定処理と、妥当性が認められた省略語を出力する省略語出力処理と、から成ることを特徴とする省略語生成・妥当性評価方法。
  2. 省略語を取得する省略語取得処理と、省略語を検索語としてインターネット上のリソースを検索する評価検索処理と、評価検索結果に基づいて省略語の妥当性を判定する妥当性判定処理と、妥当性が認められない省略語を単語省略語データベースから削除する省略語削除処理と、から成ることを特徴とする省略語生成・妥当性評価方法。
  3. 請求項1又は請求項2に記載の省略語生成・妥当性評価方法と、省略語と源単語の単語対を同義語データベースに登録する同義語登録処理と、から成ることを特徴とする同義語データベース生成・更新方法。
  4. 請求項3に記載の同義語データベース生成方法において、インターネット上のリソースから定期的にテキストデータを自動的に取得する自動テキストデータ取得処理を備え、取得したテキストデータを用いて自動的に省略語及び同義語で生成・更新を行うことを特徴とする同義語データベース生成・更新方法。
  5. 単語の省略語を生成する省略語生成手段と、前記省略語生成手段により生成した省略語を検索語としてインターネット上のリソースを検索する評価検索手段と、前記評価検索手段の評価検索結果に基づいて省略語の妥当性を判定する妥当性判定手段と、前記妥当性判定手段により妥当性が認められた省略語を出力する省略語出力手段と、を備えることを特徴とする省略語生成・妥当性評価装置。
  6. 省略語を生成する源情報である単語とその省略形が記録された単語省略語データベースと、省略語を取得する省略語取得手段と、前記省略語を検索語としてインターネット上のリソースを検索する評価検索手段と、前記評価検索手段の評価検索結果に基づいて省略語の妥当性を判定する妥当性判定手段と、前記妥当性判定手段により、妥当性が認められない省略語を前記単語省略語データベースから削除する省略語削除手段と、を備えることを特徴とする省略語生成・妥当性評価装置。
  7. 請求項5又は請求項6に記載の省略語生成・妥当性評価装置と、同義語集合が記録された同義語データベースと、省略語と源単語の単語対を同義語データベースに登録する同義語登録手段と、を備えることを特徴とする同義語データベース生成・更新装置。
  8. 請求項7に記載の同義語データベース生成・更新装置において、インターネット上のリソースから定期的にテキストデータを自動的に取得する自動テキストデータ取得手段を備え、前記自動テキストデータ取得手段により取得したテキストデータを用いて自動的に省略語及び同義語で生成・更新を行うことを特徴とする同義語データベース生成・更新装置。
  9. 請求項1又は請求項2に記載の省略語生成・妥当性評価方法を実行することを特徴とするプログラム。
  10. 請求項3又は請求項4に記載の同義語データベース生成・更新方法を実行することを特徴とするプログラム。
  11. 請求項9又は請求項10に記載したプログラムをコンピュータが読み取り可能な形式により記録されていることを特徴とする記録媒体。
JP2006021183A 2006-01-30 2006-01-30 省略語生成・妥当性評価方法、同義語データベース生成・更新方法、省略語生成・妥当性評価装置、同義語データベース生成・更新装置、プログラム、記録媒体 Pending JP2007200252A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2006021183A JP2007200252A (ja) 2006-01-30 2006-01-30 省略語生成・妥当性評価方法、同義語データベース生成・更新方法、省略語生成・妥当性評価装置、同義語データベース生成・更新装置、プログラム、記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006021183A JP2007200252A (ja) 2006-01-30 2006-01-30 省略語生成・妥当性評価方法、同義語データベース生成・更新方法、省略語生成・妥当性評価装置、同義語データベース生成・更新装置、プログラム、記録媒体

Publications (1)

Publication Number Publication Date
JP2007200252A true JP2007200252A (ja) 2007-08-09

Family

ID=38454767

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006021183A Pending JP2007200252A (ja) 2006-01-30 2006-01-30 省略語生成・妥当性評価方法、同義語データベース生成・更新方法、省略語生成・妥当性評価装置、同義語データベース生成・更新装置、プログラム、記録媒体

Country Status (1)

Country Link
JP (1) JP2007200252A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009041220A1 (ja) * 2007-09-26 2009-04-02 Nec Corporation 略語生成装置およびプログラム、並びに、略語生成方法
JP2009217544A (ja) * 2008-03-11 2009-09-24 Yahoo Japan Corp 文字ベクトルを用いた略語生成装置、方法及びプログラム
JP2011227749A (ja) * 2010-04-21 2011-11-10 Nippon Telegr & Teleph Corp <Ntt> 略語完全語復元装置とその方法と、プログラム
JP2020046805A (ja) * 2018-09-18 2020-03-26 Zホールディングス株式会社 情報処理装置、情報処理方法、およびプログラム

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1125117A (ja) * 1997-07-08 1999-01-29 Oki Electric Ind Co Ltd 語検索装置
JP2004318480A (ja) * 2003-04-16 2004-11-11 Sony Corp 電子機器装置、新語抽出方法、およびプログラム
JP2004326367A (ja) * 2003-04-23 2004-11-18 Sharp Corp テキスト解析装置及びテキスト解析方法、ならびにテキスト音声合成装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1125117A (ja) * 1997-07-08 1999-01-29 Oki Electric Ind Co Ltd 語検索装置
JP2004318480A (ja) * 2003-04-16 2004-11-11 Sony Corp 電子機器装置、新語抽出方法、およびプログラム
JP2004326367A (ja) * 2003-04-23 2004-11-18 Sharp Corp テキスト解析装置及びテキスト解析方法、ならびにテキスト音声合成装置

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009041220A1 (ja) * 2007-09-26 2009-04-02 Nec Corporation 略語生成装置およびプログラム、並びに、略語生成方法
JP5293607B2 (ja) * 2007-09-26 2013-09-18 日本電気株式会社 略語生成装置およびプログラム、並びに、略語生成方法
JP2009217544A (ja) * 2008-03-11 2009-09-24 Yahoo Japan Corp 文字ベクトルを用いた略語生成装置、方法及びプログラム
JP2011227749A (ja) * 2010-04-21 2011-11-10 Nippon Telegr & Teleph Corp <Ntt> 略語完全語復元装置とその方法と、プログラム
JP2020046805A (ja) * 2018-09-18 2020-03-26 Zホールディングス株式会社 情報処理装置、情報処理方法、およびプログラム
JP7003020B2 (ja) 2018-09-18 2022-01-20 ヤフー株式会社 情報処理装置、情報処理方法、およびプログラム

Similar Documents

Publication Publication Date Title
US8055498B2 (en) Systems and methods for building an electronic dictionary of multi-word names and for performing fuzzy searches in the dictionary
JP2007257644A (ja) 訳語候補文字列予測に基づく訳語取得のためのプログラム、方法および装置
WO2005059771A1 (ja) 対訳判断装置、方法及びプログラム
Saloot et al. An architecture for Malay Tweet normalization
Taghi-Zadeh et al. A new hybrid stemming method for Persian language
Kerremans et al. Using data-mining to identify and study patterns in lexical innovation on the web: The NeoCrawler
JP2007200252A (ja) 省略語生成・妥当性評価方法、同義語データベース生成・更新方法、省略語生成・妥当性評価装置、同義語データベース生成・更新装置、プログラム、記録媒体
JP2006343925A (ja) 関連語辞書作成装置、および関連語辞書作成方法、並びにコンピュータ・プログラム
Roy et al. An unsupervised normalization algorithm for noisy text: a case study for information retrieval and stance detection
Pouliquen et al. Automatic construction of multilingual name dictionaries
Azmi et al. Modern information retrieval in Arabic–catering to standard and colloquial Arabic users
JP2008077252A (ja) 文書ランキング方法、文書検索方法、文書ランキング装置、文書検索装置、及び記録媒体
JP7122773B2 (ja) 辞書構築装置、辞書の生産方法、およびプログラム
JP2005242416A (ja) 自然言語文の検索方法および検索装置
Fatima et al. STEMUR: An automated word conflation algorithm for the Urdu language
CN1627289B (zh) 用于分析汉语的装置和方法
JP4953440B2 (ja) 形態素解析装置、形態素解析方法、形態素解析プログラム及びコンピュータプログラムを格納した記録媒体
JP4148247B2 (ja) 語彙獲得方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体
JP5094835B2 (ja) 意味属性推定装置、方法及びプログラム
Borin et al. Language technology for digital linguistics: Turning the linguistic survey of India into a rich source of linguistic information
JP2009140113A (ja) 辞書編集装置、および辞書編集方法、並びにコンピュータ・プログラム
JP4155970B2 (ja) 情報処理装置、同義語データベース生成方法、同義語データベース生成プログラム
JP4915499B2 (ja) 同義語辞書生成システム、同義語辞書生成方法および同義語辞書生成プログラム
JP2004334699A (ja) テキスト評価装置、テキスト評価方法、プログラム及び記憶媒体
JP2019008477A (ja) 判別プログラム、判別装置及び判別方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20081222

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110414

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110419

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110620

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20110816