JP2007200252A - 省略語生成・妥当性評価方法、同義語データベース生成・更新方法、省略語生成・妥当性評価装置、同義語データベース生成・更新装置、プログラム、記録媒体 - Google Patents
省略語生成・妥当性評価方法、同義語データベース生成・更新方法、省略語生成・妥当性評価装置、同義語データベース生成・更新装置、プログラム、記録媒体 Download PDFInfo
- Publication number
- JP2007200252A JP2007200252A JP2006021183A JP2006021183A JP2007200252A JP 2007200252 A JP2007200252 A JP 2007200252A JP 2006021183 A JP2006021183 A JP 2006021183A JP 2006021183 A JP2006021183 A JP 2006021183A JP 2007200252 A JP2007200252 A JP 2007200252A
- Authority
- JP
- Japan
- Prior art keywords
- abbreviation
- validity
- abbreviations
- generation
- evaluation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
【解決手段】 ステップS1において、単語の省略語を生成する省略語生成処理を実行する。次にステップS2において、生成した省略語を検索語としてインターネット上のリソースを検索する評価検索処理を実行する。そして、続くステップS3において、評価検索処理の評価検索の結果をもとに省略語の妥当性を判定する妥当性判定処理を行い、妥当であると判定した場合はステップS4において省略語を出力する省略語出力処理を実行する。
【選択図】 図3
Description
文書検索技術も文書分類技術も文書データ内の単語情報を利用するものであるため、必然的に単語の同義性の影響を受けてしまう。例えば、“私”という単語は、“僕”、“我”、“小生”、“手前”など状況によって使い分けられるので、例えば、検索の問合わせ語として、“私”と入力しても、検索対象文書データ内では“我”となっていれば、検索されないし、また、2つの文書で“僕”と“私”となっていれば、これらは異なる単語情報として認識されてしまう。
このような問題は、同義語データベースを利用することにより対処可能であり、従来から多くは人手で生成・更新されている。
ここで、同義語のうち省略形に着目すると、単語の省略形生成技術はすでにいくつか存在している。
また、特許文献2の発明は、文書データに対し形態素解析を適用し、特定の条件をみたす形態素列(例えば、名詞連鎖)のペアを比較し、共通する文字列長が一方の形態素列長と同じであれば、それをもう一方の形態素列の省略語とするとともに、文書データ内での形態素列の出現順序を考慮することにより、より適切に省略語ベースの同義語セットを生成するものである。
また特許文献4の発明は、入力される文字列に対し、形態素解析を施し、特定の頻度で出現する特定の単語列に対し、特定の規則に基づき省略語を生成するものであり、生成した省略語と源単語列との相互置換が可能である。さらに、生成した省略語の妥当性判定をーザにゆだねる仕組みも用意されている。
前者は、文中から省略語を選出するため、対象となる文を生成したユーザにとっては妥当な省略語であるが、それが一般的、すなわち不特定多数にとって妥当であるという保証はない。また後者は、省略語は一定の規則に基づき源単語から自動生成するため、省略語生成規則がいかに高性能であろうとも、やはり最終的にはユーザによる妥当性の判定が必要であることは容易に予想され、ここでもまた省略語の一般的な妥当性は保証されていないといえる。
そこで、本発明では、生成した省略語をクエリとしてWWW上のリソースに対し検索を行った結果をもとに省略語の妥当性を判断する仕組みを提供することを目的とする。また、妥当であると判定された省略語を源単語の同義語とみなし、同義語データベースを生成・更新する仕組みを提供することも目的とする。
また請求項2に記載の発明は、省略語を取得する省略語取得処理と、省略語を検索語としてインターネット上のリソースを検索する評価検索処理と、評価検索結果に基づいて省略語の妥当性を判定する妥当性判定処理と、妥当性が認められない省略語を単語省略語データベースから削除する省略語削除処理と、から成る省略語生成・妥当性評価方法を特徴とする。
請求項4に記載の発明は、請求項3に記載の同義語データベース生成方法において、インターネット上のリソースから定期的にテキストデータを自動的に取得する自動テキストデータ取得処理を備え、取得したテキストデータを用いて自動的に省略語及び同義語で生成・更新を行う同義語データベース生成・更新方法を特徴とする。
請求項6に記載の発明は、省略語を生成する源情報である単語とその省略形が記録された単語省略語データベースと、省略語を取得する省略語取得手段と、前記省略語を検索語としてインターネット上のリソースを検索する評価検索手段と、前記評価検索手段の評価検索結果に基づいて省略語の妥当性を判定する妥当性判定手段と、前記妥当性判定手段により、妥当性が認められない省略語を前記単語省略語データベースから削除する省略語削除手段と、を備える省略語生成・妥当性評価装置を特徴とする。
請求項8に記載の発明は、請求項7に記載の同義語データベース生成・更新装置において、インターネット上のリソースから定期的にテキストデータを自動的に取得する自動テキストデータ取得手段を備え、前記自動テキストデータ取得手段により取得したテキストデータを用いて自動的に省略語及び同義語で生成・更新を行う同義語データベース生成・更新装置を特徴とする。
請求項10に記載の発明は、請求項3又は請求項4に記載の同義語データベース生成・更新方法を実行するプログラムであることを特徴とする。
請求項11に記載の発明は、請求項9又は請求項10に記載したプログラムをコンピュータが読み取り可能な形式により記録されている記録媒体を特徴とする。
また本発明によれば、妥当であると判定された省略語を源単語の同義語とみなし、同義語データベースを生成・更新することが可能になる。
図1は本発明の一実施形態である省略語生成・妥当性評価装置を実現するコンピュータの構成例である。図1には、キーボード12と、通信I/O13と、ディスプレイ14と、プリンター15と、メモリ16と、CPU(Central Processing Unit)17と、ハードディスク18と、それらを接続するバス10と、ネットワーク11とが示されている。
キーボード12は、文書を登録する入力手段である。通信I/O13は、外部からの信号を受信したり、本実施形態の情報処理装置から信号を送信する通信手段である。CPU17は、メモリ16に記録された手順に従ってプログラムを実行する。メモリ16は、記憶手段である。通常は、揮発性または不揮発性のものがある。ハードディスクは不揮発性の記憶手段である。
ディスプレイ14とプリンター15は、出力手段である。通信I/O13は、モデムやターミナルアダプタなどが想定でき、通信回線を介してイントラネット、またはインターネットに接続されているサーバなどからデータを受信できる。
この図2に示す省略語生成・妥当性評価装置は、単語の省略語を生成する省略語生成手段21と、生成した省略語を検索語としてインターネット上のリソースを検索する評価検索手段22と、評価検索手段22の評価検索の結果をもとに省略語の妥当性を判定する妥当性判定手段23と、妥当性判定手段23で妥当であると判定された省略語を出力する省略語出力手段24とにより構成される。
この場合、先ず、ステップS1において、単語の省略語を生成する省略語生成処理を実行する。次にステップS2において、生成した省略語を検索語としてインターネット上のリソースを検索する評価検索処理を実行する。そして、続くステップS3において、評価検索処理の評価検索の結果をもとに省略語の妥当性を判定する妥当性判定処理を行い、妥当であると判定した場合はステップS4において省略語を出力する省略語出力処理を実行する。
この場合、省略語生成処理は、特定の単語の省略語を生成するものであり、その生成方法は源単語とその省略語を取得可能であれば特に限定されるものではない。
次に、図6に示す対象形態素列から前述の生成規則を基に省略語を生成した結果を図7に示す。なお、図7においても簡便のため識別番号を付置しているが、図6の識別番号を2桁目の数字とし、1桁目を図6の対応する対象形態素列から生成される個々の省略語の識別子としている。
高性能なWWW上の検索システムである、Google(http://www.google.co.jp)を用いて、図7に示す省略語を問合わせ語とした検索結果件数を図8に示す。なお、図8においては図7の識別番号を利用しており、また検索結果は2004年9月26日に実施したものである。
さらに、本発明ではWWW上のリソースを対象としているが、企業などの場合、社内イントラネットのテキストデータを対象としてもよい。
省略語出力処理は、妥当性判定処理で妥当性ありと判定された省略語を適切な形式で出力する。
この図9に示す省略語生成・妥当性評価装置は、省略語を取得する省略語取得手段31と、省略語を検索語としてインターネット上のリソースを検索する評価検索手段22と、評価検索手段22の評価検索の結果をもとに省略語の妥当性を判定する妥当性判定手段23と、妥当性判定手段23により妥当性が認められない省略語を単語省略語データベース33から削除する省略語削除手段32と、省略語を生成する源情報である単語(源単語)とその省略形が記録された単語省略語データベース33とにより構成される。この場合は、省略語が既に生成され、単語省略語データベース33に登録されている場合であるため、単語省略語データベース33からの省略語の取得と妥当性なしとなった場合の省略語のデータベース33から削除するようにした点が図2に示した省略語生成・妥当性評価装置との差異である。
この場合、先ず、ステップS11において、単語省略語データベース33から省略語を取得する省略語取得処理を実行する。次にステップS12において、単語省略語データベース33から取得した省略語を検索語としてインターネット上のリソースを検索する評価検索処理を実行する。そして、続くステップS13において、評価検索処理の評価検索の結果をもとに省略語の妥当性を判定する妥当性判定処理を行い、妥当でないと判定した場合はステップS14において単語省略語データベース33から省略語を削除する省略語削除処理を実行する。
この場合、省略語取得処理は、単語省略語データベース33から妥当性を判定するための省略語を取得する。単語省略語データベース33に登録される源単語と省略語は、前述のような省略語生成処理により生成したものを登録してもよいし、またユーザが手動で登録してもよい。
省略語削除処理は、単語省略語データベース33から妥当性なしと判定された省略語を削除する。例えば、省略語の妥当性判定が前例のとおりであるとすると、図11において、“形解シス”、“形解システム”、及び“情シス研究所”の省略語が妥当性なしであるので、データベースの該当位置に空文字(図12では簡便のためNULLと記す)を代入することで、省略語を削除することとすると図12のようになる。また、図12において、レコード1の“形態素解析システム”は、全省略語が妥当性なしと判定されるため、レコード全体を削除してもよい。
この図13に示す同義語データベース生成・更新装置は、自動的にテキストデータを取得する自動テキストデータ取得手段41と、図2又は図9に示した省略語生成・妥当性評価装置42と、省略語と源単語の単語対を同義語データベースに登録する同義語登録手段43と、同義語集合が記録された同義語データベース44とにより構成される。
このように構成される同義語データベース生成・更新装置では、形態素列と、妥当性が保証されたその省略語を同義語集合とみなし、同義語データベースを生成・更新するものである。
この図14に示される同義語データベースは、各行が各同義語集合であり、各セルが同義語を構成する文字列であり、3つの同義語集合を管理しているデータベースである。また、各行を識別するために識別番号が付与されている。例えば、識別番号1の同義語集合は、“北大西洋条約機構”、“NATO”、“North Atlantic Treaty Organization”はそれぞれがそれぞれの同義語である。
この場合は、ステップS21において、テキストデータを自動的に取得する自動テキストデータ取得処理を実行する。次に、ステップS22において、前述したような省略語生成・妥当性評価処理を実行する。そして続くステップS23において、省略語と源単語の単語対を同義語データベース44に登録する同義語登録処理を行うようにする。
Claims (11)
- 単語の省略語を生成する省略語生成処理と、生成した省略語を検索語としてインターネット上のリソースを検索する評価検索処理と、評価検索結果に基づいて省略語の妥当性を判定する妥当性判定処理と、妥当性が認められた省略語を出力する省略語出力処理と、から成ることを特徴とする省略語生成・妥当性評価方法。
- 省略語を取得する省略語取得処理と、省略語を検索語としてインターネット上のリソースを検索する評価検索処理と、評価検索結果に基づいて省略語の妥当性を判定する妥当性判定処理と、妥当性が認められない省略語を単語省略語データベースから削除する省略語削除処理と、から成ることを特徴とする省略語生成・妥当性評価方法。
- 請求項1又は請求項2に記載の省略語生成・妥当性評価方法と、省略語と源単語の単語対を同義語データベースに登録する同義語登録処理と、から成ることを特徴とする同義語データベース生成・更新方法。
- 請求項3に記載の同義語データベース生成方法において、インターネット上のリソースから定期的にテキストデータを自動的に取得する自動テキストデータ取得処理を備え、取得したテキストデータを用いて自動的に省略語及び同義語で生成・更新を行うことを特徴とする同義語データベース生成・更新方法。
- 単語の省略語を生成する省略語生成手段と、前記省略語生成手段により生成した省略語を検索語としてインターネット上のリソースを検索する評価検索手段と、前記評価検索手段の評価検索結果に基づいて省略語の妥当性を判定する妥当性判定手段と、前記妥当性判定手段により妥当性が認められた省略語を出力する省略語出力手段と、を備えることを特徴とする省略語生成・妥当性評価装置。
- 省略語を生成する源情報である単語とその省略形が記録された単語省略語データベースと、省略語を取得する省略語取得手段と、前記省略語を検索語としてインターネット上のリソースを検索する評価検索手段と、前記評価検索手段の評価検索結果に基づいて省略語の妥当性を判定する妥当性判定手段と、前記妥当性判定手段により、妥当性が認められない省略語を前記単語省略語データベースから削除する省略語削除手段と、を備えることを特徴とする省略語生成・妥当性評価装置。
- 請求項5又は請求項6に記載の省略語生成・妥当性評価装置と、同義語集合が記録された同義語データベースと、省略語と源単語の単語対を同義語データベースに登録する同義語登録手段と、を備えることを特徴とする同義語データベース生成・更新装置。
- 請求項7に記載の同義語データベース生成・更新装置において、インターネット上のリソースから定期的にテキストデータを自動的に取得する自動テキストデータ取得手段を備え、前記自動テキストデータ取得手段により取得したテキストデータを用いて自動的に省略語及び同義語で生成・更新を行うことを特徴とする同義語データベース生成・更新装置。
- 請求項1又は請求項2に記載の省略語生成・妥当性評価方法を実行することを特徴とするプログラム。
- 請求項3又は請求項4に記載の同義語データベース生成・更新方法を実行することを特徴とするプログラム。
- 請求項9又は請求項10に記載したプログラムをコンピュータが読み取り可能な形式により記録されていることを特徴とする記録媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006021183A JP2007200252A (ja) | 2006-01-30 | 2006-01-30 | 省略語生成・妥当性評価方法、同義語データベース生成・更新方法、省略語生成・妥当性評価装置、同義語データベース生成・更新装置、プログラム、記録媒体 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006021183A JP2007200252A (ja) | 2006-01-30 | 2006-01-30 | 省略語生成・妥当性評価方法、同義語データベース生成・更新方法、省略語生成・妥当性評価装置、同義語データベース生成・更新装置、プログラム、記録媒体 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2007200252A true JP2007200252A (ja) | 2007-08-09 |
Family
ID=38454767
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006021183A Pending JP2007200252A (ja) | 2006-01-30 | 2006-01-30 | 省略語生成・妥当性評価方法、同義語データベース生成・更新方法、省略語生成・妥当性評価装置、同義語データベース生成・更新装置、プログラム、記録媒体 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2007200252A (ja) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2009041220A1 (ja) * | 2007-09-26 | 2009-04-02 | Nec Corporation | 略語生成装置およびプログラム、並びに、略語生成方法 |
JP2009217544A (ja) * | 2008-03-11 | 2009-09-24 | Yahoo Japan Corp | 文字ベクトルを用いた略語生成装置、方法及びプログラム |
JP2011227749A (ja) * | 2010-04-21 | 2011-11-10 | Nippon Telegr & Teleph Corp <Ntt> | 略語完全語復元装置とその方法と、プログラム |
JP2020046805A (ja) * | 2018-09-18 | 2020-03-26 | Zホールディングス株式会社 | 情報処理装置、情報処理方法、およびプログラム |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH1125117A (ja) * | 1997-07-08 | 1999-01-29 | Oki Electric Ind Co Ltd | 語検索装置 |
JP2004318480A (ja) * | 2003-04-16 | 2004-11-11 | Sony Corp | 電子機器装置、新語抽出方法、およびプログラム |
JP2004326367A (ja) * | 2003-04-23 | 2004-11-18 | Sharp Corp | テキスト解析装置及びテキスト解析方法、ならびにテキスト音声合成装置 |
-
2006
- 2006-01-30 JP JP2006021183A patent/JP2007200252A/ja active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH1125117A (ja) * | 1997-07-08 | 1999-01-29 | Oki Electric Ind Co Ltd | 語検索装置 |
JP2004318480A (ja) * | 2003-04-16 | 2004-11-11 | Sony Corp | 電子機器装置、新語抽出方法、およびプログラム |
JP2004326367A (ja) * | 2003-04-23 | 2004-11-18 | Sharp Corp | テキスト解析装置及びテキスト解析方法、ならびにテキスト音声合成装置 |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2009041220A1 (ja) * | 2007-09-26 | 2009-04-02 | Nec Corporation | 略語生成装置およびプログラム、並びに、略語生成方法 |
JP5293607B2 (ja) * | 2007-09-26 | 2013-09-18 | 日本電気株式会社 | 略語生成装置およびプログラム、並びに、略語生成方法 |
JP2009217544A (ja) * | 2008-03-11 | 2009-09-24 | Yahoo Japan Corp | 文字ベクトルを用いた略語生成装置、方法及びプログラム |
JP2011227749A (ja) * | 2010-04-21 | 2011-11-10 | Nippon Telegr & Teleph Corp <Ntt> | 略語完全語復元装置とその方法と、プログラム |
JP2020046805A (ja) * | 2018-09-18 | 2020-03-26 | Zホールディングス株式会社 | 情報処理装置、情報処理方法、およびプログラム |
JP7003020B2 (ja) | 2018-09-18 | 2022-01-20 | ヤフー株式会社 | 情報処理装置、情報処理方法、およびプログラム |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8055498B2 (en) | Systems and methods for building an electronic dictionary of multi-word names and for performing fuzzy searches in the dictionary | |
JP2007257644A (ja) | 訳語候補文字列予測に基づく訳語取得のためのプログラム、方法および装置 | |
WO2005059771A1 (ja) | 対訳判断装置、方法及びプログラム | |
Saloot et al. | An architecture for Malay Tweet normalization | |
Taghi-Zadeh et al. | A new hybrid stemming method for Persian language | |
Kerremans et al. | Using data-mining to identify and study patterns in lexical innovation on the web: The NeoCrawler | |
JP2007200252A (ja) | 省略語生成・妥当性評価方法、同義語データベース生成・更新方法、省略語生成・妥当性評価装置、同義語データベース生成・更新装置、プログラム、記録媒体 | |
JP2006343925A (ja) | 関連語辞書作成装置、および関連語辞書作成方法、並びにコンピュータ・プログラム | |
Roy et al. | An unsupervised normalization algorithm for noisy text: a case study for information retrieval and stance detection | |
Pouliquen et al. | Automatic construction of multilingual name dictionaries | |
Azmi et al. | Modern information retrieval in Arabic–catering to standard and colloquial Arabic users | |
JP2008077252A (ja) | 文書ランキング方法、文書検索方法、文書ランキング装置、文書検索装置、及び記録媒体 | |
JP7122773B2 (ja) | 辞書構築装置、辞書の生産方法、およびプログラム | |
JP2005242416A (ja) | 自然言語文の検索方法および検索装置 | |
Fatima et al. | STEMUR: An automated word conflation algorithm for the Urdu language | |
CN1627289B (zh) | 用于分析汉语的装置和方法 | |
JP4953440B2 (ja) | 形態素解析装置、形態素解析方法、形態素解析プログラム及びコンピュータプログラムを格納した記録媒体 | |
JP4148247B2 (ja) | 語彙獲得方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体 | |
JP5094835B2 (ja) | 意味属性推定装置、方法及びプログラム | |
Borin et al. | Language technology for digital linguistics: Turning the linguistic survey of India into a rich source of linguistic information | |
JP2009140113A (ja) | 辞書編集装置、および辞書編集方法、並びにコンピュータ・プログラム | |
JP4155970B2 (ja) | 情報処理装置、同義語データベース生成方法、同義語データベース生成プログラム | |
JP4915499B2 (ja) | 同義語辞書生成システム、同義語辞書生成方法および同義語辞書生成プログラム | |
JP2004334699A (ja) | テキスト評価装置、テキスト評価方法、プログラム及び記憶媒体 | |
JP2019008477A (ja) | 判別プログラム、判別装置及び判別方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20081222 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20110414 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110419 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110620 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20110816 |