JP6044422B2

JP6044422B2 - 略称生成方法および略称生成装置

Info

Publication number: JP6044422B2
Application number: JP2013074796A
Authority: JP
Inventors: 智志品川
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2013-03-29
Filing date: 2013-03-29
Publication date: 2016-12-14
Anticipated expiration: 2033-03-29
Also published as: JP2014199580A

Description

本発明は、与えられた名称の略称を生成する方法、装置、およびプログラムに係わる。

コンピュータによる情報処理が広く普及しており、データベースには様々な名称が登録される。例えば、企業のデータベースには、顧客企業や団体の名称、商品の名称、役職や肩書きの名称などが登録されることが多い。

ところが、企業のデータベースに登録される名称は、しばしば、その文字数が多い。このため、データベースには、正式名称の代わりに、その略称を登録したいという要望がある。なお、略称は、正式名称よりも少ない文字数で、その正式名称を一意に特定または識別できることが求められる。

このような要望に対して、正式名称から各利用者に対応した略称を作成する方法が提案されている。この方法においては、各単語に対する１種類又は複数種類の略称ルールを記憶する略称ルールデータベースを設け、利用者の指示に基づいて略称ルールデータベースに記憶された略称ルールを指定する。この状態において、利用者を特定した正式名称が入力されると、この正式名称を複数の単語に分解する。そして、分解された複数の単語を略称ルールデータベースに記憶された当該利用者（利用者ＩＤ）に指定された略称ルールに基づいて単語単位の単位略称を作成する。最後に、この作成された各単位略称を結合して正式名称の略称とする。（例えば、特許文献１）

また、他の関連技術として、同義語、対訳語、略語、表記揺れの語などの表現の揺らぎの種類によらずに、同一のものを示す異なる表現の組織名を抽出することができる組織名抽出装置が提案されている。（例えば、特許文献２）

特開２００８−０７７３３５号公報特開２００９−０８６９７９号公報

従来技術においては、正式名称からその略称を生成するためのルール又は変換パターンは、利用者により作成される。このため、略称を生成する際に、利用者の負担が大きくなってしまう。換言すれば、従来技術では、利用者の介在なしで自動的に好適な略称を生成することは困難である。

１つの側面では、本発明の目的は、与えられた名称の略称を生成する処理において、利用者の負担を削減することである。

本発明の１つの態様の略称生成プログラムは、複数の名称をそれぞれ単語に分解し、２以上の共通する単語を含む名称を抽出し、前記２以上の共通する単語のなかの相対的に識別力の低い単語を、前記抽出された名称からそれぞれ消去し、各名称について、消去されずに残っている単語を結合することにより対応する略称を生成する、処理をコンピュータに実行させる。

上述の態様によれば、与えられた名称の略称を生成する処理において、利用者の負担を削減することができる。

本発明の実施形態の略称生成装置の機能を説明する図である。名称ファイルの一例を示す図である。本発明の実施形態の略称生成方法を示すフローチャートである。本発明の他の実施形態の略称生成方法を示すフローチャートである。消去部の処理の一例を示すフローチャートである。本発明のさらに他の実施形態の略称生成方法を示すフローチャートである。グループ化処理を示すフローチャートである。名称リストの一例を示す図である。前処理の一例を示すフローチャートである。略称生成装置を実現するためのコンピュータシステムのハードウェア構成を示す図である。

図１は、本発明の１つの実施形態の略称生成装置の機能を説明する図である。実施形態の略称生成装置１は、図１に示すように、前処理部１１、分解部１２、抽出部１３、消去部１４、生成部１５を有する。また、略称生成装置１は、さらに有効識別語記録部１６を有していてもよい。そして、略称生成装置１は、与えられた名称から、その名称よりも文字数の少ない略称を生成する。

略称生成装置１には、名称ファイル４１が入力される。名称ファイル４１には、複数の名称が記録されている。一例としては、顧客企業や団体などの名称が名称ファイル４１に記録されている。なお、名称ファイル４１は、特に限定されるものではないが、例えば、顧客管理データベースの一部である。この場合、名称ファイル４１は、複数のレコードを有し、各レコードにそれぞれ１つの名称が記録されている。名称ファイル４１の一例を図２に示す。

前処理部１１は、入力された名称ファイル４１に対して前処理を実行する。例えば、前処理部１１は、まず、名称ファイル４１の各レコードに記録されている名称が、互いに一意に識別可能か判定する。すなわち、前処理部１１は、文字列が完全に一致する複数のレコードが存在するか否かをチェックする。そして、文字列が完全に一致する複数のレコードが検出されたときは、前処理部１１は、アラームを出力する。

また、前処理部１１は、各名称を表す名称データの情報量を削減する。たとえば、名称が「スペース」「括弧記号」を含んでいるときは、前処理部１１は、その名称から「スペース」「括弧記号」を削除する。また、半角データで表すことができる文字が全角データで表されているときは、前処理部１１は、その文字を全角データから半角データに変換してもよい。さらに、前処理部１１は、各名称の称呼に基づいて、名称ファイル４１のレコードを５０音順にソートする。なお、前処理部１１は、名称ファイル４１に対して他の処理を実行してもよい。

分解部１２は、名称ファイル４１に記録されている各名称をそれぞれ単語に分解する。なお、文字列を単語に分解する処理、または文字列から単語を抽出する処理は、公知の技術により実現可能である。

抽出部１３は、名称ファイル４１に記録されている名称から、２以上の共通する単語（以下、共通語）を含む名称を抽出する。なお、２以上の共通語を含む文字列を検出する処理は、公知の技術により実現可能である。

消去部１４は、抽出部１３により抽出される名称に含まれている２以上の共通語のなかで、相対的に識別力の低い単語を特定する。このとき、消去部１４は、各共通語についてそれぞれ検索エンジン３１に検索の実行を依頼する。検索エンジン３１は、特に限定されるものではないが、例えば、インターネット上に設けられている検索サーバである。この場合、消去部１４は、ブラウザ２１を利用して検索語（すなわち、各共通語）を検索エンジン３１へ送信し、ブラウザ２１を介して検索結果を受け取る。そして、消去部１４は、２以上の共通語のなかで相対的に検索結果の数が多い単語を、抽出部１３により抽出された名称からそれぞれ消去する。

生成部１５は、各名称について、消去されずに残っている単語を結合することにより対応する略称を生成する。このとき、消去部１４により共通語が消去された名称は、その名称よりも文字数の少ない略称に変換される。

抽出部１３および消去部１４は、２以上の共通語を含む名称が検出されなくなるまで、上述の処理を繰り返し実行する。そして、生成部１５は、各名称について、消去部１４により消去されずに残っている単語を結合することにより、対応する略称を生成する。これにより、名称ファイル４１に記録されている各名称についてそれぞれ略称が生成される。そして、生成部１５は、生成した略称を記録した略称ファイル４２を出力する。

なお、略称生成装置１は、ブラウザ２１を含んで構成されるようにしてもよい。すなわち、ブラウザ２１は、略称生成装置１の一部であってもよい。また、有効識別語記録部１６については、後で説明する。

このように、実施形態の略称生成装置１は、複数の名称に共通する単語（すなわち、共通語）を消去することにより、それらの名称の略称を生成する。このとき、略称生成装置１は、識別力の低い共通語を消去する。一例としては、検索エンジン３１においてより多くの検索結果が得られる単語が、識別力の低い単語として消去される。換言すれば、識別力の高い単語は、元の名称から消去されずに残る可能性が高い。したがって、略称生成装置１は、識別力の高い略称を生成することができる。

次に、実施形態の略称生成方法で、与えられた名称から略称を生成する処理の実施例を説明する。なお、以下の説明では、略称生成装置１に下記の４個の名称Ａ〜Ｄが入力されるものとする。また、前処理部１１による前処理は、終了しているものとする。
名称Ａ：ガトー風月福岡天神
名称Ｂ：ガトー風月福岡博多
名称Ｃ：ガトー風月宮崎
名称Ｄ：ガトーショコラ専門店

まず、分解部１２は、各名称をそれぞれ単語に分解する。この結果、各名称Ａ〜Ｄについて、それぞれ下記の単語群が生成される。なお、以下の説明では、名称と、その名称を単語に分解することにより得られる単語群とを区別することなく「名称」と呼ぶことがある。
Ａ：ガトー、風月、福岡、天神
Ｂ：ガトー、風月、福岡、博多
Ｃ：ガトー、風月、宮崎
Ｄ：ガトー、ショコラ、専門店

抽出部１３は、名称Ａ〜Ｄから、２以上の共通する単語（以下、共通語）を含む名称を抽出する。ここでは、抽出部１３は、２個の共通語を含む名称を抽出するものとする。一例として、抽出部１３は、「ガトー、風月」を含む名称を抽出する。すなわち、以下のように、名称Ａ、Ｂ、Ｃが抽出される。
Ａ：「ガトー、風月」、福岡、天神
Ｂ：「ガトー、風月」、福岡、博多
Ｃ：「ガトー、風月」、宮崎

消去部１４は、２つの共通語「ガトー」「風月」をそれぞれブラウザ２１に渡す。このとき、消去部１４は、各共通語をそれぞれ検索語としてブラウザ２１に入力する。そうすると、ブラウザ２１は、各共通語をそれぞれ検索エンジン３１に送信することにより、その検索結果を受信する。そして、ブラウザ２１は、各共通語について得られた検索結果の件数を消去部１４に通知する。この例では、「ガトー」について得られた検索結果の件数が1,500,000件であり、「風月」について得られた検索結果の件数が13,500,000件である。

消去部１４は、検索結果の件数の少ない方の共通語と比較して、検索結果の件数の多い方の共通語は、相対的に識別力が低いと判定する。すなわち、消去部１４は、「風月」は「ガトー」よりも識別力が低いと判定する。そうすると、消去部１４は、名称Ａ、Ｂ、Ｃからそれぞれ「風月」を消去する。この結果、名称Ａ〜Ｄの単語群は、以下のように更新される。
Ａ：ガトー、福岡、天神
Ｂ：ガトー、福岡、博多
Ｃ：ガトー、宮崎
Ｄ：ガトー、ショコラ、専門店

略称生成装置１は、「風月」が消去された後の名称Ａ〜Ｄの文字列が互いに一意に識別可能か否かを判定する。この例では、名称Ａ〜Ｄの文字列は、互いに一意に識別可能である。この場合、抽出部１３は、「風月」が消去された後の名称Ａ〜Ｄにおいて、２以上の共通語を含む名称をサーチする。なお、名称Ａ〜Ｄの文字列が互いに一意に識別可能でないときは、消去部１４は、先に消去した「風月」をそれぞれ名称Ａ、Ｂ、Ｃに戻し、その後、抽出部１３が他の２以上の共通語を含む名称をサーチする。

抽出部１３は、他の２以上の共通語を含む名称をサーチする。この例では、抽出部１３は、「ガトー、福岡」を含む名称を抽出する。すなわち、以下のように、名称Ａ、Ｂが抽出される。
Ａ：「ガトー、福岡」、天神
Ｂ：「ガトー、福岡」、博多

消去部１４は、上述のケースと同様に、「ガトー」「福岡」について、それぞれ検索エンジン３１による検索結果の件数を取得する。この結果、「ガトー」について得られた検索結果の件数よりも、「福岡」について得られた検索結果の件数の方が多いものとする。この場合、消去部１４は、「ガトー」よりも「福岡」の方が識別力が低いと判定する。そうすると、消去部１４は、名称Ａ、Ｂからそれぞれ「福岡」を消去する。この結果、名称Ａ〜Ｄの単語群は、以下のように更新される。
Ａ：ガトー、天神
Ｂ：ガトー、博多
Ｃ：ガトー、宮崎
Ｄ：ガトー、ショコラ、専門店

略称生成装置１は、「福岡」が消去された後の名称Ａ〜Ｄの文字列が互いに一意に識別可能か否かを判定する。この例では、名称Ａ〜Ｄの文字列は、互いに一意に識別可能である。ただし、「福岡」が消去された後の名称Ａ〜Ｄにおいては、２以上の共通語を含む名称は存在しない。よって、抽出部１３および消去部１４は、処理を終了する。

生成部１５は、各名称Ａ〜Ｄについて、消去されずに残っている単語を結合することにより対応する略称を生成する。この結果、以下の略称Ａ〜Ｄが生成される。
略称Ａ：ガトー天神
略称Ｂ：ガトー博多
略称Ｃ：ガトー宮崎
略称Ｄ：ガトーショコラ専門店

このように、名称Ａ〜Ｃは、それぞれ対応する名称よりも文字数の少ない略称Ａ〜Ｃに変換されている。これに対して、名称Ｄは、その名称に含まれる単語が消去されていないので、名称Ｄおよび略称Ｄは互いに同じ文字列である。すなわち、略称生成装置１は、必ずしも全ての名称についてそれぞれ文字数が削減された略称を生成するものではなく、与えられた名称の少なくとも一部についてそれぞれ文字数が削減された略称を生成する。

なお、上述の実施例では、抽出部１３は、２個の共通語を含む名称を抽出するが、３個以上の共通語を含む名称を抽出してもよい。例えば、抽出部１３は、名称Ａ〜Ｄから、下記のように「ガトー、風月、福岡」を含む名称Ａ、Ｂを抽出してもよい。
Ａ：「ガトー、風月、福岡」、天神
Ｂ：「ガトー、風月、福岡」、博多

ここで、「福岡」についての検索結果の件数が最も多く、「風月」についての検索結果の件数が２番目に多く。「ガトー」についての検索結果の件数が最も少ないものとする。この場合、消去部１４は、例えば、検索結果の件数が最も多い共通語を、各名称Ａ、Ｂから削除する。そうすると、名称Ａ、Ｂは、下記のように更新される。
Ａ：ガトー、風月、天神
Ｂ：ガトー、風月、博多
或いは、消去部１４は、検索結果の件数が多い２つ共通語を、各名称Ａ、Ｂから削除してもよい。そうすると、名称Ａ、Ｂは、下記のように更新される。
Ａ：ガトー、天神
Ｂ：ガトー、博多
すなわち、消去部１４は、２以上の共通語のなかで相対的に識別力の低い少なくとも１つの単語を各名称からそれぞれ消去することができる。

また、上述の実施例では、２以上の共通語を含む名称が検出されなくなるまで抽出部１３および消去部１４の処理が繰り返し実行されるが、本発明はこの手順に限定されるものではない。例えば、すべての名称の文字数が予め指定された閾値よりも少なくなったときに、抽出部１３および消去部１４の処理を終了してもよい。

図３は、本発明の１つの実施形態の略称生成方法を示すフローチャートである。このフローチャートの処理は、例えば、図１に示す名称ファイル４１が略称生成装置１に入力されたときに、前処理部１１、分解部１２、抽出部１３、消去部１４、生成部１５により実行される。

Ｓ１において、前処理部１１は、入力された名称ファイルに対して前処理を実行する。Ｓ２において、分解部１２は、名称ファイル４１の各レコードに記録されている名称をそれぞれ単語に分解する。

Ｓ３において、抽出部１３は、名称ファイルに記録されている名称から、２以上の共通語を含む名称を抽出する。Ｓ４において、消去部１４は、ブラウザ２１を利用して、検索エンジン３１に各共通語について検索の実行を依頼する。これにより、消去部１４は、各共通語についての検索結果を取得する。Ｓ５において、消去部１４は、２以上の共通語のなかで、相対的に検索結果の件数の多い１または複数の単語を、抽出部１３により抽出された名称からそれぞれ消去する。

Ｓ６において、消去部１４は、Ｓ５による消去が実行された時点で、各名称の文字列が互いに一意に識別可能か否かを判定する。そして、各名称の文字列が互いに一意に識別できないときは、消去部１４は、Ｓ７において、Ｓ５で消去した単語を元の名称に戻す。なお、各名称の文字列が互いに一意に識別できなるときは、Ｓ７の処理はスキップされる。

Ｓ８において、抽出部１３は、Ｓ３〜Ｓ７の処理が実行された名称において、２以上の共通語を含む名称をサーチする。そして、２以上の共通語を含む名称が存在するときは、略称生成装置１の処理はＳ３に戻る。したがって、抽出部１３および消去部１４は、２以上の共通語を含む名称が検出されなくなるまで、Ｓ３〜Ｓ７の処理を繰り返し実行することになる。

２以上の共通語を含む名称が検出されなくなると、生成部１５は、Ｓ９において、各名称について、消去されずに残っている単語を結合する。これにより、各名称からそれぞれ対応する略称が生成される。

このように、実施形態の略称生成方法においては、名称が与えられると、その略称が自動的に生成される。すなわち、利用者は、名称からその略称を生成するためのルールを作成する必要ない。よって、与えられた名称の略称を生成する処理において、利用者の負担は少ない。

また、実施形態の略称生成方法においては、名称中の単語のうち、識別力の低い単語が自動的に消去される。したがって、生成される略称の識別力は高い。このとき、検索エンジンによる検索結果の件数に基づいて各単語の識別力が判定される方式を採用する場合、各単語の識別力を判定するための専用のソフトウェアを用意する必要はない。

＜他の実施形態１＞
図４は、本発明の他の実施形態の略称生成方法を示すフローチャートである。なお、Ｓ１、Ｓ２、Ｓ４〜Ｓ７、Ｓ９は、図３および図４に示す略称生成方法において、実質的に同じである。

図４に示す略称生成方法においては、各共通語についてそれぞれ検索エンジン３１による検索結果が得られた後に、Ｓ１１が実行される。なお、Ｓ１１は、Ｓ４〜Ｓ７の間の任意のタイミングで実行することができる。Ｓ１１において、消去部１４は、各共通語についての検索において、その検索結果の件数の少ない方の単語を「有効識別語」として有効識別語記録部１６に記録する。ここで、検索結果の件数の少ない単語は、識別力の高い単語と考えられる。すなわち、検索結果の件数の少ない単語は、その単語を含む名称を識別するために有効である。よって、検索結果の件数の少ない単語は、識別力の高い「有効識別語」として有効識別語記録部１６に記録される。

また、図４に示す略称生成方法においては、抽出部１３は、Ｓ８において、有効識別語記録部１６を参照する。有効識別語記録部１６に有効識別語が記録されているときは、抽出部１３は、有効識別語を除く２以上の共通語を含む名称をサーチする。そして、有効識別語を除く２以上の共通語を含む名称が存在するときは、抽出部１３は、Ｓ３において、そのような２以上の共通語を含む名称を抽出する。

例えば、上述の実施例においては、２つの共通語「ガトー、風月」を含む名称が抽出されたとき、「ガトー」よりも「風月」の方が検索結果の件数が多い。そして、各名称Ａ、Ｂ、Ｃからそれぞれ「風月」が消去されている。このとき、図４に示すフローチャートによれば、「ガトー」は、相対的に識別力の高い有効識別語として有効識別語記録部１６に記録される。そうすると、この後、抽出部１３がＳ８を実行する際には、「ガトー」以外の２以上の共通語を含む名称がサーチされる。

このように、図４に示す略称生成方法においては、識別力が高いと判定された単語は、名称から消去される単語の候補として取り上げられることはない。よって、名称からその略称を生成する処理の効率が向上する。

なお、図３に示すフローチャートのＳ５の代わりに、図５に示すＳ２１〜Ｓ２３を実行することで、図４に示す略称生成方法と同等の効果を実現することができる。図５に示すＳ２１〜Ｓ２３を含む略称生成方法においては、２以上の共通語のうちの相対的に識別力の低い単語が、先に識別力の高い単語であると判定されていたときは、その単語を消去する処理を実行しない。

すなわち、Ｓ２１において、消去部１４は、相対的に検索結果の件数の多い共通語が、有効識別語記録部１６に記録されているか否かを判定する。この共通語が有効識別語記録部１６に記録されていなければ、消去部１４は、Ｓ２２において、その共通語を各名称から消去する。一方、この共通語が有効識別語記録部１６に記録されているときは、Ｓ２２の処理はスキップされる。この場合、この共通語は、識別力が高いと考えられるので、各名称から削除されることはない。この後、Ｓ２３において、消去部１４は、相対的に検索結果の件数の少ない共通語を、有効識別語として有効識別語記録部１６に記録する。そうすると、このようにして記録された有効識別語は、以降の処理において消去部１４によって参照される。

＜他の実施形態２＞
図６は、本発明のさらに他の実施形態の略称生成方法を示すフローチャートである。ここで、Ｓ１の前処理およびＳ２の単語分解処理は、図３および図６に示す略称生成方法において、実質的に同じである。ただし、図６に示す略称生成方法においては、Ｓ１の前処理は、名称ファイルの各レコードに記録されている名称を５０音順にソートする処理を含むものとする。なお、以下の説明では、５０音順にソートされた名称ファイルを名称リストと呼ぶことがある。

Ｓ３１において、略称生成装置１は、名称リストに記録されている名称をグループ化する。グループ化処理については、後で説明する。なお、グループ化処理は、図６ではＳ２の後に実行されるが、Ｓ２の前に実行してもよい。Ｓ３２において、略称生成装置１は、名称リストの先頭から順番に、グループを１つ選択する。そして、略称生成装置１は、選択したグループに対して、Ｓ３〜Ｓ８の処理を実行する。すなわち、選択されたグループにおいて、識別力の低い共通語が消去される。

Ｓ３３は、すべてのグループについてＳ３〜Ｓ８の処理を実行するために設けられている。すなわち、各グループに対して、Ｓ３〜Ｓ８の処理が実行される。この後、Ｓ９において、生成部１５は、各名称について、消去されずに残っている単語を結合する。これにより、各名称からそれぞれ対応する略称が生成される。

図７は、グループ化処理を示すフローチャートである。この処理は、図６のＳ３１に対応する。
Ｓ４１において、略称生成装置１は、名称リストから連続する２つのレコードを選択する。なお、グループ化処理の開始時には、名称リストの先頭の２つのレコードが選択されるものとする。Ｓ４２において、略称生成装置１は、Ｓ４１で選択した２つのレコードに記録されている名称が、２以上の共通語を含むか否かを判定する。そして、２つのレコードに記録されている名称が２以上の共通語を含んでいないときは、略称生成装置１は、Ｓ４３において、名称リストの次のレコードを指定する。この後、グループ化処理は、Ｓ４１に戻る。

上述の２つのレコードに記録されている名称が２以上の共通語を含んでいるときは、略称生成装置１は、Ｓ４４において、それら２つのレコードをグループ化する。続いて、Ｓ４５において、略称生成装置１は、Ｓ４４でグループ化されたレコードに続く１または複数の後続レコードが、Ｓ４２の２以上の共通語のうちの少なくとも２つの共通語を含んでいるか否かを判定する。

後続レコードがＳ４２の２以上の共通語のうちの少なくとも２つの共通語を含んでいるときは、略称生成装置１は、Ｓ４６において、その後続レコードをＳ４４で生成されたグループに追加する。なお、後続レコードがＳ４２の２以上の共通語のうちの少なくとも２つの共通語を含んでいないときは、Ｓ４６はスキップされる。

Ｓ４７は、名称リスト上のすべてのレコードについてＳ４１〜Ｓ４６の処理を実行するために設けられている。したがって、名称リスト上のすべてのレコードについてＳ４１〜Ｓ４６の処理が実行されると、グループ化処理は終了する。

一例を説明する。ここでは、前処理において名称ファイルに対して５０音順ソートが実行され、図８に示す名称リストが得られているものとする。なお、図８では、説明を分かりやすくするために、各レコードを識別するレコード番号が付与されている。

たとえば、Ｓ４１において、図８に示す名称リストからレコード１２４、１２５が選択されたものとする。このとき、「ガトー、ショコラ、専門店」および「ガトー、風月、福岡、天神」の共通語は、「ガトー」のみである。よって、Ｓ４２の判定結果は「Ｎｏ」であり、Ｓ４３において、レコード番号が１だけインクリメントされる。

レコード番号がインクリメントされた後、Ｓ４１において、名称リストからレコード１２５、１２６が選択される。この場合、「ガトー、風月、福岡、天神」および「ガトー、風月、福岡、博多」は、３つの共通語「ガトー」「風月」「福岡」を有する。よって、Ｓ４２の判定結果は「Ｙｅｓ」であり、Ｓ４４において、レコード１２５、１２６はグループ化される。

さらに、グループ化されたレコード１２５、１２６に続くレコード１２７には、「ガトー、風月、宮崎」が記録されている。すなわち、レコード１２５、１２６と、レコード１２７との間には、２個の共通語「ガトー」「風月」が存在する。よって、Ｓ４５の判定結果は「Ｙｅｓ」であり、Ｓ４６において、レコード１２７は、レコード１２５、１２６を含むグループに追加される。

ただし、レコード１２５〜１２７に続くレコード１２８には、「北九州ｘｘｘ」が記録されている。すなわち、レコード１２５〜１２７と、レコード１２８との間には、共通語は存在しない。よって、Ｓ４５の判定結果は「Ｎｏ」であり、レコード１２８は、レコード１２５〜１２７を含むグループに追加されることはない。以下同様に、図８に示す名称リスト全体に対して図７に示すグループ化処理が実行される。この結果、例えば、レコード３１９、３２０を含むグループが生成される。

この後、生成された各グループに対して、図６のＳ３〜Ｓ８の処理が実行される。例えば、レコード１２５〜１２７を含むグループに対してＳ３〜Ｓ８が実行されたときは、図３を参照しながら説明したように、下記の結果が得られる。
１２５：ガトー、天神
１２６：ガトー、博多
１２７：ガトー、宮崎

また、レコード３１９、３２０を含むグループに対してＳ３〜Ｓ８が実行されたときには、「福岡」が消去されるものとすると、下記の結果が得られる。
３１９：めんたい、天神
３２０：めんたい、博多

このように、図６に示す略称生成方法においては、名称ファイルに記録されている名称は、５０音順にソートされた後にグループ化される。ここで、例えば、顧客管理データベースの名称ファイルにおいて、５０音順に名称がソートされると、同じ会社の支店、営業所、部署などが名称リスト上に連続して並ぶことが想定される。したがって、この場合、図６に示す略称生成方法を使用すれば、例えば、同じ会社に係わる様々な名称を、適切にその略称に変換することが可能である。

＜前処理部の実施例＞
前処理部１１は、名称ファイル（名称リスト）４１のレコードを５０音順にソートする処理等に加えて、他の処理を実行してもよい。例えば、前処理部１１は、２以上の名称が予め指定された文字列を含むときに、それら２以上の名称からそれぞれその予め指定された文字列を削除してもよい。たとえば、顧客を管理するデータベースにおいては、多くの名称が「株式会社」を含んでいると考えられる。そして、このような文字列（ここでは、「株式会社」）は、識別力は低い。

そこで、多くの名称に含まれていて識別力が低いと考えられる文字列が、予め略称生成装置１の記憶領域に登録される。そして、前処理部１１は、この記憶領域に登録されている文字列を各名称から削除する。この場合、前処理部１１は、より多くの名称に含まれている文字列から順番に削除を行う。そして、前処理部１１は、各名称を互いに一意に識別できなくなった時点で、前処理を停止する。

また、カタカナは、漢字と比較して、その文字数が多くなる傾向にある。そこで、前処理部１１は、各名称の文字数を削減するために、名称に含まれるカタカナ文字列を、そのカタカナ文字列よりも文字数の少ないアルファベット文字に置き換えてもよい。

図９は、前処理部がカタカナ文字列をアルファベット文字に置き換える処理の一例を示すフローチャートである。
Ｓ５１において、前処理部１１は、名称ファイル４１に記録されている全名称からカタカナ文字列を抽出する。Ｓ５２において、前処理部１１は、より多くの名称に含まれている順に、抽出したカタカナ文字列を並べ替える。Ｓ５３において、前処理部１１は、並べ替えられたカタカナ文字列を１つ選択する。

Ｓ５４において、前処理部１１は、Ｓ５３で選択したカタカナ文字列が辞書に載っているか否かを判定する。辞書は、特に限定されるものではなく、例えば、電子データにより実現される国語辞典等である。なお、前処理部１１は、このような辞書にアクセス出来るものとする。そして、選択したカタカナ文字列が辞書に載っているときは、前処理部１１は、Ｓ５５において、そのカタカナ文字列を最小限のアルファベット文字に置き換える。例えば、カタカナ文字列が外国語の単語の発音を表記しているときは、カタカナ文字は、その外国語の単語の先頭のアルファベット文字に置き換えられる。一例としては、グループは「Ｇ」に置き換えられる。また、例えば、パーキングエリアについては、パーキングが「Ｐ」に置き換えられ、エリアが「Ａ」に置き換えられ、この結果、「ＰＡ」が得られる。なお、選択したカタカナ文字列が辞書に載っていないときは、Ｓ５５の処理はスキップされる。また、カタカナ文字列をアルファベット文字に置き換えたことによって、各名称の一意性が失われるときは、そのアルファベット文字を元のカタカナ文字列に戻すものとする。

Ｓ５６において、前処理部１１は、すべてのカタカナ文字列についてＳ５４〜Ｓ５５の処理を実行したか判定する。Ｓ５４〜Ｓ５５の処理が実行されていないカタカナ文字列が残っていれば、前処理部１１は、Ｓ５３に戻って次のカタカナ文字列を選択する。すべての文字列についてＳ５４〜Ｓ５５の処理が実行されていれば、前処理部１１の処理は終了する。

＜略称生成装置１のハードウェア構成＞
図１０は、略称生成装置１を実現するためのコンピュータシステムのハードウェア構成を示す。略称生成装置１を実現するためのコンピュータシステム１００は、図１０に示すように、ＣＰＵ１０１、メモリ１０２、記憶装置１０３、読み取り装置１０４、通信インタフェース１０６、および入出力装置１０７を備える。ＣＰＵ１０１、メモリ１０２、記憶装置１０３、読み取り装置１０４、通信インタフェース１０６、入出力装置１０７は、例えば、バス１０８を介して互いに接続されている。

ＣＰＵ１０１は、メモリ１０２を利用して略称生成プログラムを実行することにより、前処理部１１、分解部１２、抽出部１３、消去部１４、生成部１５の機能を提供することができる。すなわち、ＣＰＵ１０１は、図３〜図７、図９に示すフローチャートの処理を記述したプログラムを実行することができる。

メモリ１０２は、例えば半導体メモリであり、ＲＡＭ領域およびＲＯＭ領域を含んで構成される。有効識別語記録部１６は、例えば、メモリ１２に形成される。記憶装置１０３は、例えばハードディスク装置であり、上述の略称生成プログラムを格納する。なお、記憶装置１０３は、フラッシュメモリ等の半導体メモリであってもよい。また、記憶装置１０３は、外部記録装置であってもよい。

読み取り装置１０４は、ＣＰＵ１０１の指示に従って着脱可能記録媒体１０５にアクセスする。着脱可能記録媒体１０５は、例えば、半導体デバイス（ＵＳＢメモリ等）、磁気的作用により情報が入出力される媒体（磁気ディスク等）、光学的作用により情報が入出力される媒体（ＣＤ−ＲＯＭ、ＤＶＤ等）などにより実現される。通信インタフェース１０６は、ＣＰＵ１０１の指示に従ってネットワークを介してデータを送受信する。入出力装置１０７は、例えば、ユーザからの指示を受け付けるデバイス、および生成した略称データを表示する表示装置等に相当する。

実施形態の略称生成プログラムは、例えば、下記の形態でコンピュータシステム１００に提供される。
（１）記憶装置１０３に予めインストールされている。
（２）着脱可能記録媒体１０５により提供される。
（３）プログラムサーバ１１０から提供される。

以上記載した各実施例を含む実施形態に関し、さらに以下の付記を開示する。
（付記１）
複数の名称をそれぞれ単語に分解し、
２以上の共通する単語を含む名称を抽出し、
前記２以上の共通する単語のなかの相対的に識別力の低い単語を、前記抽出された名称からそれぞれ消去し、
各名称について、消去されずに残っている単語を結合することにより対応する略称を生成する、
処理をコンピュータに実行させる略称生成プログラム。
（付記２）
前記消去する処理は、
前記２以上の共通する単語のそれぞれについて、検索エンジンに検索の実行を依頼する手順と、
前記２以上の共通する単語のなかで相対的に検索結果の件数が多い単語を、前記抽出された名称からそれぞれ消去する手順と、を含む
ことを特徴とする付記１に記載の略称生成プログラム。
（付記３）
前記複数の名称の中に含まれているカタカナ文字列を抽出し、
抽出したカタカナ文字列を、そのカタカナ文字列よりも文字数の少ないアルファベット文字に置き換える
処理をさらにコンピュータに実行させることを特徴とする付記１または２に記載の略称生成プログラム。
（付記４）
前記複数の名称の中の２以上の名称が予め指定された文字列を含むときに、前記２以上の名称からそれぞれ前記予め指定された文字列を削除する
処理をさらにコンピュータに実行させることを特徴とする付記１または２に記載の略称生成プログラム。
（付記５）
前記抽出する処理および前記消去する処理は、２以上の共通する単語を含む名称が検出されなくなるまで繰り返し実行される
ことを特徴とする付記１または２に記載の略称生成プログラム。
（付記６）
前記抽出する処理において、先に実行された前記消去する処理において識別力の高い単語であると判定された単語を除いて、２以上の共通する単語を含む名称が抽出される
ことを特徴とする付記５に記載の略称生成プログラム。
（付記７）
前記２以上の共通する単語のうちの相対的に識別力の低い単語が、先に実行された前記消去する処理において相対的に識別力の高い単語であると判定されていたときは、前記２以上の共通する単語のうちの相対的に識別力の低い単語を消去する処理を実行しない
ことを特徴とする付記５に記載の略称生成プログラム。
（付記８）
複数の名称が５０音順にソートされて記録されている名称リストにおいて、各名称をそれぞれ単語に分解し、
前記名称リストにおいて、２以上の共通する単語を含む、連続して記録されている複数の名称をそれぞれグループ化し、
各グループにおいて、前記２以上の共通する単語のなかの相対的に識別力の低い単語を消去し、
各名称について、消去されずに残っている単語を結合することにより対応する略称を生成する、
処理をコンピュータに実行させる略称生成プログラム。
（付記９）
複数の名称をそれぞれ単語に分解し、
２以上の共通する単語を含む名称を抽出し、
前記２以上の共通する単語のなかの相対的に識別力の低い単語を、前記抽出された名称からそれぞれ消去し、
各名称について、消去されずに残っている単語を結合することにより対応する略称を生成する、
ことを特徴とする略称生成方法。
（付記１０）
複数の名称をそれぞれ単語に分解する分解部と、
２以上の共通する単語を含む名称を抽出する抽出部と、
前記２以上の共通する単語のなかの相対的に識別力の低い単語を、前記抽出された名称からそれぞれ消去する消去部と、
各名称について、消去されずに残っている単語を結合することにより対応する略称を生成する生成部と、
を有する略称生成装置。
（付記１１）
複数の名称のうちの第１の名称であって、該複数の名称のいずれにも含まれる第１、第２の単語と、少なくとも前記複数の名称のいずれかには含まれない第３の単語とを含む該第１の名称について、前記第１の単語と前記第２の単語の識別力を比較し、
該第１の単語と該第２の単語のうち相対的に識別力が勝ると判断された単語と、前記第３の単語とを用い、該第１の単語と該第２の単語のうち相対的に識別力が劣ると判断された単語を用いずに、単語の結合処理を行って略称を生成する、
処理をコンピュータに実行させる略称生成プログラム。

１略称生成装置
１１前処理部
１２分解部
１３抽出部
１４消去部
１５生成部
１６有効識別語記録部
２１ブラウザ
３１検索エンジン

Claims

複数の名称をそれぞれ単語に分解し、
２以上の共通する単語を含む名称を抽出し、
前記２以上の共通する単語のなかの相対的に識別力の低い単語を、前記抽出された名称からそれぞれ消去し、
各名称について、消去されずに残っている単語を結合することにより対応する略称を生成する、
処理をコンピュータに実行させる略称生成プログラム。
前記消去する処理は、
前記２以上の共通する単語のそれぞれについて、検索エンジンに検索の実行を依頼する手順と、
前記２以上の共通する単語のなかで相対的に検索結果の件数が多い単語を、前記抽出された名称からそれぞれ消去する手順と、を含む
ことを特徴とする請求項１に記載の略称生成プログラム。
前記複数の名称の中に含まれているカタカナ文字列を抽出し、
抽出したカタカナ文字列を、そのカタカナ文字列よりも文字数の少ないアルファベット文字に置き換える
処理をさらにコンピュータに実行させることを特徴とする請求項１または２に記載の略称生成プログラム。
複数の名称が５０音順にソートされて記録されている名称リストにおいて、各名称をそれぞれ単語に分解し、
前記名称リストにおいて、２以上の共通する単語を含む、連続して記録されている複数の名称をそれぞれグループ化し、
各グループにおいて、前記２以上の共通する単語のなかの相対的に識別力の低い単語を消去し、
各名称について、消去されずに残っている単語を結合することにより対応する略称を生成する、
処理をコンピュータに実行させる略称生成プログラム。
コンピュータにより実行される略称生成方法であって、
前記コンピュータが、
複数の名称をそれぞれ単語に分解し、
２以上の共通する単語を含む名称を抽出し、
前記２以上の共通する単語のなかの相対的に識別力の低い単語を、前記抽出された名称からそれぞれ消去し、
各名称について、消去されずに残っている単語を結合することにより対応する略称を生成する、
ことを特徴とする略称生成方法。
複数の名称をそれぞれ単語に分解する分解部と、
２以上の共通する単語を含む名称を抽出する抽出部と、
前記２以上の共通する単語のなかの相対的に識別力の低い単語を、前記抽出された名称からそれぞれ消去する消去部と、
各名称について、消去されずに残っている単語を結合することにより対応する略称を生成する生成部と、
を有する略称生成装置。
複数の名称のうちの第１の名称であって、該複数の名称のいずれにも含まれる第１、第２の単語と、少なくとも前記複数の名称のいずれかには含まれない第３の単語とを含む該第１の名称について、前記第１の単語と前記第２の単語の識別力を比較し、
該第１の単語と該第２の単語のうち相対的に識別力が勝ると判断された単語と、前記第３の単語とを用い、該第１の単語と該第２の単語のうち相対的に識別力が劣ると判断された単語を用いずに、単語の結合処理を行って略称を生成する、
処理をコンピュータに実行させる略称生成プログラム。