JP6044422B2 - 略称生成方法および略称生成装置 - Google Patents

略称生成方法および略称生成装置 Download PDF

Info

Publication number
JP6044422B2
JP6044422B2 JP2013074796A JP2013074796A JP6044422B2 JP 6044422 B2 JP6044422 B2 JP 6044422B2 JP 2013074796 A JP2013074796 A JP 2013074796A JP 2013074796 A JP2013074796 A JP 2013074796A JP 6044422 B2 JP6044422 B2 JP 6044422B2
Authority
JP
Japan
Prior art keywords
names
words
abbreviation
name
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2013074796A
Other languages
English (en)
Other versions
JP2014199580A (ja
Inventor
智志 品川
智志 品川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2013074796A priority Critical patent/JP6044422B2/ja
Publication of JP2014199580A publication Critical patent/JP2014199580A/ja
Application granted granted Critical
Publication of JP6044422B2 publication Critical patent/JP6044422B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、与えられた名称の略称を生成する方法、装置、およびプログラムに係わる。
コンピュータによる情報処理が広く普及しており、データベースには様々な名称が登録される。例えば、企業のデータベースには、顧客企業や団体の名称、商品の名称、役職や肩書きの名称などが登録されることが多い。
ところが、企業のデータベースに登録される名称は、しばしば、その文字数が多い。このため、データベースには、正式名称の代わりに、その略称を登録したいという要望がある。なお、略称は、正式名称よりも少ない文字数で、その正式名称を一意に特定または識別できることが求められる。
このような要望に対して、正式名称から各利用者に対応した略称を作成する方法が提案されている。この方法においては、各単語に対する1種類又は複数種類の略称ルールを記憶する略称ルールデータベースを設け、利用者の指示に基づいて略称ルールデータベースに記憶された略称ルールを指定する。この状態において、利用者を特定した正式名称が入力されると、この正式名称を複数の単語に分解する。そして、分解された複数の単語を略称ルールデータベースに記憶された当該利用者(利用者ID)に指定された略称ルールに基づいて単語単位の単位略称を作成する。最後に、この作成された各単位略称を結合して正式名称の略称とする。(例えば、特許文献1)
また、他の関連技術として、同義語、対訳語、略語、表記揺れの語などの表現の揺らぎの種類によらずに、同一のものを示す異なる表現の組織名を抽出することができる組織名抽出装置が提案されている。(例えば、特許文献2)
特開2008−077335号公報 特開2009−086979号公報
従来技術においては、正式名称からその略称を生成するためのルール又は変換パターンは、利用者により作成される。このため、略称を生成する際に、利用者の負担が大きくなってしまう。換言すれば、従来技術では、利用者の介在なしで自動的に好適な略称を生成することは困難である。
1つの側面では、本発明の目的は、与えられた名称の略称を生成する処理において、利用者の負担を削減することである。
本発明の1つの態様の略称生成プログラムは、複数の名称をそれぞれ単語に分解し、2以上の共通する単語を含む名称を抽出し、前記2以上の共通する単語のなかの相対的に識別力の低い単語を、前記抽出された名称からそれぞれ消去し、各名称について、消去されずに残っている単語を結合することにより対応する略称を生成する、処理をコンピュータに実行させる。
上述の態様によれば、与えられた名称の略称を生成する処理において、利用者の負担を削減することができる。
本発明の実施形態の略称生成装置の機能を説明する図である。 名称ファイルの一例を示す図である。 本発明の実施形態の略称生成方法を示すフローチャートである。 本発明の他の実施形態の略称生成方法を示すフローチャートである。 消去部の処理の一例を示すフローチャートである。 本発明のさらに他の実施形態の略称生成方法を示すフローチャートである。 グループ化処理を示すフローチャートである。 名称リストの一例を示す図である。 前処理の一例を示すフローチャートである。 略称生成装置を実現するためのコンピュータシステムのハードウェア構成を示す図である。
図1は、本発明の1つの実施形態の略称生成装置の機能を説明する図である。実施形態の略称生成装置1は、図1に示すように、前処理部11、分解部12、抽出部13、消去部14、生成部15を有する。また、略称生成装置1は、さらに有効識別語記録部16を有していてもよい。そして、略称生成装置1は、与えられた名称から、その名称よりも文字数の少ない略称を生成する。
略称生成装置1には、名称ファイル41が入力される。名称ファイル41には、複数の名称が記録されている。一例としては、顧客企業や団体などの名称が名称ファイル41に記録されている。なお、名称ファイル41は、特に限定されるものではないが、例えば、顧客管理データベースの一部である。この場合、名称ファイル41は、複数のレコードを有し、各レコードにそれぞれ1つの名称が記録されている。名称ファイル41の一例を図2に示す。
前処理部11は、入力された名称ファイル41に対して前処理を実行する。例えば、前処理部11は、まず、名称ファイル41の各レコードに記録されている名称が、互いに一意に識別可能か判定する。すなわち、前処理部11は、文字列が完全に一致する複数のレコードが存在するか否かをチェックする。そして、文字列が完全に一致する複数のレコードが検出されたときは、前処理部11は、アラームを出力する。
また、前処理部11は、各名称を表す名称データの情報量を削減する。たとえば、名称が「スペース」「括弧記号」を含んでいるときは、前処理部11は、その名称から「スペース」「括弧記号」を削除する。また、半角データで表すことができる文字が全角データで表されているときは、前処理部11は、その文字を全角データから半角データに変換してもよい。さらに、前処理部11は、各名称の称呼に基づいて、名称ファイル41のレコードを50音順にソートする。なお、前処理部11は、名称ファイル41に対して他の処理を実行してもよい。
分解部12は、名称ファイル41に記録されている各名称をそれぞれ単語に分解する。なお、文字列を単語に分解する処理、または文字列から単語を抽出する処理は、公知の技術により実現可能である。
抽出部13は、名称ファイル41に記録されている名称から、2以上の共通する単語(以下、共通語)を含む名称を抽出する。なお、2以上の共通語を含む文字列を検出する処理は、公知の技術により実現可能である。
消去部14は、抽出部13により抽出される名称に含まれている2以上の共通語のなかで、相対的に識別力の低い単語を特定する。このとき、消去部14は、各共通語についてそれぞれ検索エンジン31に検索の実行を依頼する。検索エンジン31は、特に限定されるものではないが、例えば、インターネット上に設けられている検索サーバである。この場合、消去部14は、ブラウザ21を利用して検索語(すなわち、各共通語)を検索エンジン31へ送信し、ブラウザ21を介して検索結果を受け取る。そして、消去部14は、2以上の共通語のなかで相対的に検索結果の数が多い単語を、抽出部13により抽出された名称からそれぞれ消去する。
生成部15は、各名称について、消去されずに残っている単語を結合することにより対応する略称を生成する。このとき、消去部14により共通語が消去された名称は、その名称よりも文字数の少ない略称に変換される。
抽出部13および消去部14は、2以上の共通語を含む名称が検出されなくなるまで、上述の処理を繰り返し実行する。そして、生成部15は、各名称について、消去部14により消去されずに残っている単語を結合することにより、対応する略称を生成する。これにより、名称ファイル41に記録されている各名称についてそれぞれ略称が生成される。そして、生成部15は、生成した略称を記録した略称ファイル42を出力する。
なお、略称生成装置1は、ブラウザ21を含んで構成されるようにしてもよい。すなわち、ブラウザ21は、略称生成装置1の一部であってもよい。また、有効識別語記録部16については、後で説明する。
このように、実施形態の略称生成装置1は、複数の名称に共通する単語(すなわち、共通語)を消去することにより、それらの名称の略称を生成する。このとき、略称生成装置1は、識別力の低い共通語を消去する。一例としては、検索エンジン31においてより多くの検索結果が得られる単語が、識別力の低い単語として消去される。換言すれば、識別力の高い単語は、元の名称から消去されずに残る可能性が高い。したがって、略称生成装置1は、識別力の高い略称を生成することができる。
次に、実施形態の略称生成方法で、与えられた名称から略称を生成する処理の実施例を説明する。なお、以下の説明では、略称生成装置1に下記の4個の名称A〜Dが入力されるものとする。また、前処理部11による前処理は、終了しているものとする。
名称A:ガトー風月福岡天神
名称B:ガトー風月福岡博多
名称C:ガトー風月宮崎
名称D:ガトーショコラ専門店
まず、分解部12は、各名称をそれぞれ単語に分解する。この結果、各名称A〜Dについて、それぞれ下記の単語群が生成される。なお、以下の説明では、名称と、その名称を単語に分解することにより得られる単語群とを区別することなく「名称」と呼ぶことがある。
A:ガトー、風月、福岡、天神
B:ガトー、風月、福岡、博多
C:ガトー、風月、宮崎
D:ガトー、ショコラ、専門店
抽出部13は、名称A〜Dから、2以上の共通する単語(以下、共通語)を含む名称を抽出する。ここでは、抽出部13は、2個の共通語を含む名称を抽出するものとする。一例として、抽出部13は、「ガトー、風月」を含む名称を抽出する。すなわち、以下のように、名称A、B、Cが抽出される。
A:「ガトー、風月」、福岡、天神
B:「ガトー、風月」、福岡、博多
C:「ガトー、風月」、宮崎
消去部14は、2つの共通語「ガトー」「風月」をそれぞれブラウザ21に渡す。このとき、消去部14は、各共通語をそれぞれ検索語としてブラウザ21に入力する。そうすると、ブラウザ21は、各共通語をそれぞれ検索エンジン31に送信することにより、その検索結果を受信する。そして、ブラウザ21は、各共通語について得られた検索結果の件数を消去部14に通知する。この例では、「ガトー」について得られた検索結果の件数が1,500,000件であり、「風月」について得られた検索結果の件数が13,500,000件である。
消去部14は、検索結果の件数の少ない方の共通語と比較して、検索結果の件数の多い方の共通語は、相対的に識別力が低いと判定する。すなわち、消去部14は、「風月」は「ガトー」よりも識別力が低いと判定する。そうすると、消去部14は、名称A、B、Cからそれぞれ「風月」を消去する。この結果、名称A〜Dの単語群は、以下のように更新される。
A:ガトー、福岡、天神
B:ガトー、福岡、博多
C:ガトー、宮崎
D:ガトー、ショコラ、専門店
略称生成装置1は、「風月」が消去された後の名称A〜Dの文字列が互いに一意に識別可能か否かを判定する。この例では、名称A〜Dの文字列は、互いに一意に識別可能である。この場合、抽出部13は、「風月」が消去された後の名称A〜Dにおいて、2以上の共通語を含む名称をサーチする。なお、名称A〜Dの文字列が互いに一意に識別可能でないときは、消去部14は、先に消去した「風月」をそれぞれ名称A、B、Cに戻し、その後、抽出部13が他の2以上の共通語を含む名称をサーチする。
抽出部13は、他の2以上の共通語を含む名称をサーチする。この例では、抽出部13は、「ガトー、福岡」を含む名称を抽出する。すなわち、以下のように、名称A、Bが抽出される。
A:「ガトー、福岡」、天神
B:「ガトー、福岡」、博多
消去部14は、上述のケースと同様に、「ガトー」「福岡」について、それぞれ検索エンジン31による検索結果の件数を取得する。この結果、「ガトー」について得られた検索結果の件数よりも、「福岡」について得られた検索結果の件数の方が多いものとする。この場合、消去部14は、「ガトー」よりも「福岡」の方が識別力が低いと判定する。そうすると、消去部14は、名称A、Bからそれぞれ「福岡」を消去する。この結果、名称A〜Dの単語群は、以下のように更新される。
A:ガトー、天神
B:ガトー、博多
C:ガトー、宮崎
D:ガトー、ショコラ、専門店
略称生成装置1は、「福岡」が消去された後の名称A〜Dの文字列が互いに一意に識別可能か否かを判定する。この例では、名称A〜Dの文字列は、互いに一意に識別可能である。ただし、「福岡」が消去された後の名称A〜Dにおいては、2以上の共通語を含む名称は存在しない。よって、抽出部13および消去部14は、処理を終了する。
生成部15は、各名称A〜Dについて、消去されずに残っている単語を結合することにより対応する略称を生成する。この結果、以下の略称A〜Dが生成される。
略称A:ガトー天神
略称B:ガトー博多
略称C:ガトー宮崎
略称D:ガトーショコラ専門店
このように、名称A〜Cは、それぞれ対応する名称よりも文字数の少ない略称A〜Cに変換されている。これに対して、名称Dは、その名称に含まれる単語が消去されていないので、名称Dおよび略称Dは互いに同じ文字列である。すなわち、略称生成装置1は、必ずしも全ての名称についてそれぞれ文字数が削減された略称を生成するものではなく、与えられた名称の少なくとも一部についてそれぞれ文字数が削減された略称を生成する。
なお、上述の実施例では、抽出部13は、2個の共通語を含む名称を抽出するが、3個以上の共通語を含む名称を抽出してもよい。例えば、抽出部13は、名称A〜Dから、下記のように「ガトー、風月、福岡」を含む名称A、Bを抽出してもよい。
A:「ガトー、風月、福岡」、天神
B:「ガトー、風月、福岡」、博多
ここで、「福岡」についての検索結果の件数が最も多く、「風月」についての検索結果の件数が2番目に多く。「ガトー」についての検索結果の件数が最も少ないものとする。この場合、消去部14は、例えば、検索結果の件数が最も多い共通語を、各名称A、Bから削除する。そうすると、名称A、Bは、下記のように更新される。
A:ガトー、風月、天神
B:ガトー、風月、博多
或いは、消去部14は、検索結果の件数が多い2つ共通語を、各名称A、Bから削除してもよい。そうすると、名称A、Bは、下記のように更新される。
A:ガトー、天神
B:ガトー、博多
すなわち、消去部14は、2以上の共通語のなかで相対的に識別力の低い少なくとも1つの単語を各名称からそれぞれ消去することができる。
また、上述の実施例では、2以上の共通語を含む名称が検出されなくなるまで抽出部13および消去部14の処理が繰り返し実行されるが、本発明はこの手順に限定されるものではない。例えば、すべての名称の文字数が予め指定された閾値よりも少なくなったときに、抽出部13および消去部14の処理を終了してもよい。
図3は、本発明の1つの実施形態の略称生成方法を示すフローチャートである。このフローチャートの処理は、例えば、図1に示す名称ファイル41が略称生成装置1に入力されたときに、前処理部11、分解部12、抽出部13、消去部14、生成部15により実行される。
S1において、前処理部11は、入力された名称ファイルに対して前処理を実行する。S2において、分解部12は、名称ファイル41の各レコードに記録されている名称をそれぞれ単語に分解する。
S3において、抽出部13は、名称ファイルに記録されている名称から、2以上の共通語を含む名称を抽出する。S4において、消去部14は、ブラウザ21を利用して、検索エンジン31に各共通語について検索の実行を依頼する。これにより、消去部14は、各共通語についての検索結果を取得する。S5において、消去部14は、2以上の共通語のなかで、相対的に検索結果の件数の多い1または複数の単語を、抽出部13により抽出された名称からそれぞれ消去する。
S6において、消去部14は、S5による消去が実行された時点で、各名称の文字列が互いに一意に識別可能か否かを判定する。そして、各名称の文字列が互いに一意に識別できないときは、消去部14は、S7において、S5で消去した単語を元の名称に戻す。なお、各名称の文字列が互いに一意に識別できなるときは、S7の処理はスキップされる。
S8において、抽出部13は、S3〜S7の処理が実行された名称において、2以上の共通語を含む名称をサーチする。そして、2以上の共通語を含む名称が存在するときは、略称生成装置1の処理はS3に戻る。したがって、抽出部13および消去部14は、2以上の共通語を含む名称が検出されなくなるまで、S3〜S7の処理を繰り返し実行することになる。
2以上の共通語を含む名称が検出されなくなると、生成部15は、S9において、各名称について、消去されずに残っている単語を結合する。これにより、各名称からそれぞれ対応する略称が生成される。
このように、実施形態の略称生成方法においては、名称が与えられると、その略称が自動的に生成される。すなわち、利用者は、名称からその略称を生成するためのルールを作成する必要ない。よって、与えられた名称の略称を生成する処理において、利用者の負担は少ない。
また、実施形態の略称生成方法においては、名称中の単語のうち、識別力の低い単語が自動的に消去される。したがって、生成される略称の識別力は高い。このとき、検索エンジンによる検索結果の件数に基づいて各単語の識別力が判定される方式を採用する場合、各単語の識別力を判定するための専用のソフトウェアを用意する必要はない。
<他の実施形態1>
図4は、本発明の他の実施形態の略称生成方法を示すフローチャートである。なお、S1、S2、S4〜S7、S9は、図3および図4に示す略称生成方法において、実質的に同じである。
図4に示す略称生成方法においては、各共通語についてそれぞれ検索エンジン31による検索結果が得られた後に、S11が実行される。なお、S11は、S4〜S7の間の任意のタイミングで実行することができる。S11において、消去部14は、各共通語についての検索において、その検索結果の件数の少ない方の単語を「有効識別語」として有効識別語記録部16に記録する。ここで、検索結果の件数の少ない単語は、識別力の高い単語と考えられる。すなわち、検索結果の件数の少ない単語は、その単語を含む名称を識別するために有効である。よって、検索結果の件数の少ない単語は、識別力の高い「有効識別語」として有効識別語記録部16に記録される。
また、図4に示す略称生成方法においては、抽出部13は、S8において、有効識別語記録部16を参照する。有効識別語記録部16に有効識別語が記録されているときは、抽出部13は、有効識別語を除く2以上の共通語を含む名称をサーチする。そして、有効識別語を除く2以上の共通語を含む名称が存在するときは、抽出部13は、S3において、そのような2以上の共通語を含む名称を抽出する。
例えば、上述の実施例においては、2つの共通語「ガトー、風月」を含む名称が抽出されたとき、「ガトー」よりも「風月」の方が検索結果の件数が多い。そして、各名称A、B、Cからそれぞれ「風月」が消去されている。このとき、図4に示すフローチャートによれば、「ガトー」は、相対的に識別力の高い有効識別語として有効識別語記録部16に記録される。そうすると、この後、抽出部13がS8を実行する際には、「ガトー」以外の2以上の共通語を含む名称がサーチされる。
このように、図4に示す略称生成方法においては、識別力が高いと判定された単語は、名称から消去される単語の候補として取り上げられることはない。よって、名称からその略称を生成する処理の効率が向上する。
なお、図3に示すフローチャートのS5の代わりに、図5に示すS21〜S23を実行することで、図4に示す略称生成方法と同等の効果を実現することができる。図5に示すS21〜S23を含む略称生成方法においては、2以上の共通語のうちの相対的に識別力の低い単語が、先に識別力の高い単語であると判定されていたときは、その単語を消去する処理を実行しない。
すなわち、S21において、消去部14は、相対的に検索結果の件数の多い共通語が、有効識別語記録部16に記録されているか否かを判定する。この共通語が有効識別語記録部16に記録されていなければ、消去部14は、S22において、その共通語を各名称から消去する。一方、この共通語が有効識別語記録部16に記録されているときは、S22の処理はスキップされる。この場合、この共通語は、識別力が高いと考えられるので、各名称から削除されることはない。この後、S23において、消去部14は、相対的に検索結果の件数の少ない共通語を、有効識別語として有効識別語記録部16に記録する。そうすると、このようにして記録された有効識別語は、以降の処理において消去部14によって参照される。
<他の実施形態2>
図6は、本発明のさらに他の実施形態の略称生成方法を示すフローチャートである。ここで、S1の前処理およびS2の単語分解処理は、図3および図6に示す略称生成方法において、実質的に同じである。ただし、図6に示す略称生成方法においては、S1の前処理は、名称ファイルの各レコードに記録されている名称を50音順にソートする処理を含むものとする。なお、以下の説明では、50音順にソートされた名称ファイルを名称リストと呼ぶことがある。
S31において、略称生成装置1は、名称リストに記録されている名称をグループ化する。グループ化処理については、後で説明する。なお、グループ化処理は、図6ではS2の後に実行されるが、S2の前に実行してもよい。S32において、略称生成装置1は、名称リストの先頭から順番に、グループを1つ選択する。そして、略称生成装置1は、選択したグループに対して、S3〜S8の処理を実行する。すなわち、選択されたグループにおいて、識別力の低い共通語が消去される。
S33は、すべてのグループについてS3〜S8の処理を実行するために設けられている。すなわち、各グループに対して、S3〜S8の処理が実行される。この後、S9において、生成部15は、各名称について、消去されずに残っている単語を結合する。これにより、各名称からそれぞれ対応する略称が生成される。
図7は、グループ化処理を示すフローチャートである。この処理は、図6のS31に対応する。
S41において、略称生成装置1は、名称リストから連続する2つのレコードを選択する。なお、グループ化処理の開始時には、名称リストの先頭の2つのレコードが選択されるものとする。S42において、略称生成装置1は、S41で選択した2つのレコードに記録されている名称が、2以上の共通語を含むか否かを判定する。そして、2つのレコードに記録されている名称が2以上の共通語を含んでいないときは、略称生成装置1は、S43において、名称リストの次のレコードを指定する。この後、グループ化処理は、S41に戻る。
上述の2つのレコードに記録されている名称が2以上の共通語を含んでいるときは、略称生成装置1は、S44において、それら2つのレコードをグループ化する。続いて、S45において、略称生成装置1は、S44でグループ化されたレコードに続く1または複数の後続レコードが、S42の2以上の共通語のうちの少なくとも2つの共通語を含んでいるか否かを判定する。
後続レコードがS42の2以上の共通語のうちの少なくとも2つの共通語を含んでいるときは、略称生成装置1は、S46において、その後続レコードをS44で生成されたグループに追加する。なお、後続レコードがS42の2以上の共通語のうちの少なくとも2つの共通語を含んでいないときは、S46はスキップされる。
S47は、名称リスト上のすべてのレコードについてS41〜S46の処理を実行するために設けられている。したがって、名称リスト上のすべてのレコードについてS41〜S46の処理が実行されると、グループ化処理は終了する。
一例を説明する。ここでは、前処理において名称ファイルに対して50音順ソートが実行され、図8に示す名称リストが得られているものとする。なお、図8では、説明を分かりやすくするために、各レコードを識別するレコード番号が付与されている。
たとえば、S41において、図8に示す名称リストからレコード124、125が選択されたものとする。このとき、「ガトー、ショコラ、専門店」および「ガトー、風月、福岡、天神」の共通語は、「ガトー」のみである。よって、S42の判定結果は「No」であり、S43において、レコード番号が1だけインクリメントされる。
レコード番号がインクリメントされた後、S41において、名称リストからレコード125、126が選択される。この場合、「ガトー、風月、福岡、天神」および「ガトー、風月、福岡、博多」は、3つの共通語「ガトー」「風月」「福岡」を有する。よって、S42の判定結果は「Yes」であり、S44において、レコード125、126はグループ化される。
さらに、グループ化されたレコード125、126に続くレコード127には、「ガトー、風月、宮崎」が記録されている。すなわち、レコード125、126と、レコード127との間には、2個の共通語「ガトー」「風月」が存在する。よって、S45の判定結果は「Yes」であり、S46において、レコード127は、レコード125、126を含むグループに追加される。
ただし、レコード125〜127に続くレコード128には、「北九州xxx」が記録されている。すなわち、レコード125〜127と、レコード128との間には、共通語は存在しない。よって、S45の判定結果は「No」であり、レコード128は、レコード125〜127を含むグループに追加されることはない。以下同様に、図8に示す名称リスト全体に対して図7に示すグループ化処理が実行される。この結果、例えば、レコード319、320を含むグループが生成される。
この後、生成された各グループに対して、図6のS3〜S8の処理が実行される。例えば、レコード125〜127を含むグループに対してS3〜S8が実行されたときは、図3を参照しながら説明したように、下記の結果が得られる。
125:ガトー、天神
126:ガトー、博多
127:ガトー、宮崎
また、レコード319、320を含むグループに対してS3〜S8が実行されたときには、「福岡」が消去されるものとすると、下記の結果が得られる。
319:めんたい、天神
320:めんたい、博多
このように、図6に示す略称生成方法においては、名称ファイルに記録されている名称は、50音順にソートされた後にグループ化される。ここで、例えば、顧客管理データベースの名称ファイルにおいて、50音順に名称がソートされると、同じ会社の支店、営業所、部署などが名称リスト上に連続して並ぶことが想定される。したがって、この場合、図6に示す略称生成方法を使用すれば、例えば、同じ会社に係わる様々な名称を、適切にその略称に変換することが可能である。
<前処理部の実施例>
前処理部11は、名称ファイル(名称リスト)41のレコードを50音順にソートする処理等に加えて、他の処理を実行してもよい。例えば、前処理部11は、2以上の名称が予め指定された文字列を含むときに、それら2以上の名称からそれぞれその予め指定された文字列を削除してもよい。たとえば、顧客を管理するデータベースにおいては、多くの名称が「株式会社」を含んでいると考えられる。そして、このような文字列(ここでは、「株式会社」)は、識別力は低い。
そこで、多くの名称に含まれていて識別力が低いと考えられる文字列が、予め略称生成装置1の記憶領域に登録される。そして、前処理部11は、この記憶領域に登録されている文字列を各名称から削除する。この場合、前処理部11は、より多くの名称に含まれている文字列から順番に削除を行う。そして、前処理部11は、各名称を互いに一意に識別できなくなった時点で、前処理を停止する。
また、カタカナは、漢字と比較して、その文字数が多くなる傾向にある。そこで、前処理部11は、各名称の文字数を削減するために、名称に含まれるカタカナ文字列を、そのカタカナ文字列よりも文字数の少ないアルファベット文字に置き換えてもよい。
図9は、前処理部がカタカナ文字列をアルファベット文字に置き換える処理の一例を示すフローチャートである。
S51において、前処理部11は、名称ファイル41に記録されている全名称からカタカナ文字列を抽出する。S52において、前処理部11は、より多くの名称に含まれている順に、抽出したカタカナ文字列を並べ替える。S53において、前処理部11は、並べ替えられたカタカナ文字列を1つ選択する。
S54において、前処理部11は、S53で選択したカタカナ文字列が辞書に載っているか否かを判定する。辞書は、特に限定されるものではなく、例えば、電子データにより実現される国語辞典等である。なお、前処理部11は、このような辞書にアクセス出来るものとする。そして、選択したカタカナ文字列が辞書に載っているときは、前処理部11は、S55において、そのカタカナ文字列を最小限のアルファベット文字に置き換える。例えば、カタカナ文字列が外国語の単語の発音を表記しているときは、カタカナ文字は、その外国語の単語の先頭のアルファベット文字に置き換えられる。一例としては、グループは「G」に置き換えられる。また、例えば、パーキングエリアについては、パーキングが「P」に置き換えられ、エリアが「A」に置き換えられ、この結果、「PA」が得られる。なお、選択したカタカナ文字列が辞書に載っていないときは、S55の処理はスキップされる。また、カタカナ文字列をアルファベット文字に置き換えたことによって、各名称の一意性が失われるときは、そのアルファベット文字を元のカタカナ文字列に戻すものとする。
S56において、前処理部11は、すべてのカタカナ文字列についてS54〜S55の処理を実行したか判定する。S54〜S55の処理が実行されていないカタカナ文字列が残っていれば、前処理部11は、S53に戻って次のカタカナ文字列を選択する。すべての文字列についてS54〜S55の処理が実行されていれば、前処理部11の処理は終了する。
<略称生成装置1のハードウェア構成>
図10は、略称生成装置1を実現するためのコンピュータシステムのハードウェア構成を示す。略称生成装置1を実現するためのコンピュータシステム100は、図10に示すように、CPU101、メモリ102、記憶装置103、読み取り装置104、通信インタフェース106、および入出力装置107を備える。CPU101、メモリ102、記憶装置103、読み取り装置104、通信インタフェース106、入出力装置107は、例えば、バス108を介して互いに接続されている。
CPU101は、メモリ102を利用して略称生成プログラムを実行することにより、前処理部11、分解部12、抽出部13、消去部14、生成部15の機能を提供することができる。すなわち、CPU101は、図3〜図7、図9に示すフローチャートの処理を記述したプログラムを実行することができる。
メモリ102は、例えば半導体メモリであり、RAM領域およびROM領域を含んで構成される。有効識別語記録部16は、例えば、メモリ12に形成される。記憶装置103は、例えばハードディスク装置であり、上述の略称生成プログラムを格納する。なお、記憶装置103は、フラッシュメモリ等の半導体メモリであってもよい。また、記憶装置103は、外部記録装置であってもよい。
読み取り装置104は、CPU101の指示に従って着脱可能記録媒体105にアクセスする。着脱可能記録媒体105は、例えば、半導体デバイス(USBメモリ等)、磁気的作用により情報が入出力される媒体(磁気ディスク等)、光学的作用により情報が入出力される媒体(CD−ROM、DVD等)などにより実現される。通信インタフェース106は、CPU101の指示に従ってネットワークを介してデータを送受信する。入出力装置107は、例えば、ユーザからの指示を受け付けるデバイス、および生成した略称データを表示する表示装置等に相当する。
実施形態の略称生成プログラムは、例えば、下記の形態でコンピュータシステム100に提供される。
(1)記憶装置103に予めインストールされている。
(2)着脱可能記録媒体105により提供される。
(3)プログラムサーバ110から提供される。
以上記載した各実施例を含む実施形態に関し、さらに以下の付記を開示する。
(付記1)
複数の名称をそれぞれ単語に分解し、
2以上の共通する単語を含む名称を抽出し、
前記2以上の共通する単語のなかの相対的に識別力の低い単語を、前記抽出された名称からそれぞれ消去し、
各名称について、消去されずに残っている単語を結合することにより対応する略称を生成する、
処理をコンピュータに実行させる略称生成プログラム。
(付記2)
前記消去する処理は、
前記2以上の共通する単語のそれぞれについて、検索エンジンに検索の実行を依頼する手順と、
前記2以上の共通する単語のなかで相対的に検索結果の件数が多い単語を、前記抽出された名称からそれぞれ消去する手順と、を含む
ことを特徴とする付記1に記載の略称生成プログラム。
(付記3)
前記複数の名称の中に含まれているカタカナ文字列を抽出し、
抽出したカタカナ文字列を、そのカタカナ文字列よりも文字数の少ないアルファベット文字に置き換える
処理をさらにコンピュータに実行させることを特徴とする付記1または2に記載の略称生成プログラム。
(付記4)
前記複数の名称の中の2以上の名称が予め指定された文字列を含むときに、前記2以上の名称からそれぞれ前記予め指定された文字列を削除する
処理をさらにコンピュータに実行させることを特徴とする付記1または2に記載の略称生成プログラム。
(付記5)
前記抽出する処理および前記消去する処理は、2以上の共通する単語を含む名称が検出されなくなるまで繰り返し実行される
ことを特徴とする付記1または2に記載の略称生成プログラム。
(付記6)
前記抽出する処理において、先に実行された前記消去する処理において識別力の高い単語であると判定された単語を除いて、2以上の共通する単語を含む名称が抽出される
ことを特徴とする付記5に記載の略称生成プログラム。
(付記7)
前記2以上の共通する単語のうちの相対的に識別力の低い単語が、先に実行された前記消去する処理において相対的に識別力の高い単語であると判定されていたときは、前記2以上の共通する単語のうちの相対的に識別力の低い単語を消去する処理を実行しない
ことを特徴とする付記5に記載の略称生成プログラム。
(付記8)
複数の名称が50音順にソートされて記録されている名称リストにおいて、各名称をそれぞれ単語に分解し、
前記名称リストにおいて、2以上の共通する単語を含む、連続して記録されている複数の名称をそれぞれグループ化し、
各グループにおいて、前記2以上の共通する単語のなかの相対的に識別力の低い単語を消去し、
各名称について、消去されずに残っている単語を結合することにより対応する略称を生成する、
処理をコンピュータに実行させる略称生成プログラム。
(付記9)
複数の名称をそれぞれ単語に分解し、
2以上の共通する単語を含む名称を抽出し、
前記2以上の共通する単語のなかの相対的に識別力の低い単語を、前記抽出された名称からそれぞれ消去し、
各名称について、消去されずに残っている単語を結合することにより対応する略称を生成する、
ことを特徴とする略称生成方法。
(付記10)
複数の名称をそれぞれ単語に分解する分解部と、
2以上の共通する単語を含む名称を抽出する抽出部と、
前記2以上の共通する単語のなかの相対的に識別力の低い単語を、前記抽出された名称からそれぞれ消去する消去部と、
各名称について、消去されずに残っている単語を結合することにより対応する略称を生成する生成部と、
を有する略称生成装置。
(付記11)
複数の名称のうちの第1の名称であって、該複数の名称のいずれにも含まれる第1、第2の単語と、少なくとも前記複数の名称のいずれかには含まれない第3の単語とを含む該第1の名称について、前記第1の単語と前記第2の単語の識別力を比較し、
該第1の単語と該第2の単語のうち相対的に識別力が勝ると判断された単語と、前記第3の単語とを用い、該第1の単語と該第2の単語のうち相対的に識別力が劣ると判断された単語を用いずに、単語の結合処理を行って略称を生成する、
処理をコンピュータに実行させる略称生成プログラム。
1 略称生成装置
11 前処理部
12 分解部
13 抽出部
14 消去部
15 生成部
16 有効識別語記録部
21 ブラウザ
31 検索エンジン

Claims (7)

  1. 複数の名称をそれぞれ単語に分解し、
    2以上の共通する単語を含む名称を抽出し、
    前記2以上の共通する単語のなかの相対的に識別力の低い単語を、前記抽出された名称からそれぞれ消去し、
    各名称について、消去されずに残っている単語を結合することにより対応する略称を生成する、
    処理をコンピュータに実行させる略称生成プログラム。
  2. 前記消去する処理は、
    前記2以上の共通する単語のそれぞれについて、検索エンジンに検索の実行を依頼する手順と、
    前記2以上の共通する単語のなかで相対的に検索結果の件数が多い単語を、前記抽出された名称からそれぞれ消去する手順と、を含む
    ことを特徴とする請求項1に記載の略称生成プログラム。
  3. 前記複数の名称の中に含まれているカタカナ文字列を抽出し、
    抽出したカタカナ文字列を、そのカタカナ文字列よりも文字数の少ないアルファベット文字に置き換える
    処理をさらにコンピュータに実行させることを特徴とする請求項1または2に記載の略称生成プログラム。
  4. 複数の名称が50音順にソートされて記録されている名称リストにおいて、各名称をそれぞれ単語に分解し、
    前記名称リストにおいて、2以上の共通する単語を含む、連続して記録されている複数の名称をそれぞれグループ化し、
    各グループにおいて、前記2以上の共通する単語のなかの相対的に識別力の低い単語を消去し、
    各名称について、消去されずに残っている単語を結合することにより対応する略称を生成する、
    処理をコンピュータに実行させる略称生成プログラム。
  5. コンピュータにより実行される略称生成方法であって、
    前記コンピュータが、
    複数の名称をそれぞれ単語に分解し、
    2以上の共通する単語を含む名称を抽出し、
    前記2以上の共通する単語のなかの相対的に識別力の低い単語を、前記抽出された名称からそれぞれ消去し、
    各名称について、消去されずに残っている単語を結合することにより対応する略称を生成する、
    ことを特徴とする略称生成方法。
  6. 複数の名称をそれぞれ単語に分解する分解部と、
    2以上の共通する単語を含む名称を抽出する抽出部と、
    前記2以上の共通する単語のなかの相対的に識別力の低い単語を、前記抽出された名称からそれぞれ消去する消去部と、
    各名称について、消去されずに残っている単語を結合することにより対応する略称を生成する生成部と、
    を有する略称生成装置。
  7. 複数の名称のうちの第1の名称であって、該複数の名称のいずれにも含まれる第1、第2の単語と、少なくとも前記複数の名称のいずれかには含まれない第3の単語とを含む該第1の名称について、前記第1の単語と前記第2の単語の識別力を比較し、
    該第1の単語と該第2の単語のうち相対的に識別力が勝ると判断された単語と、前記第3の単語とを用い、該第1の単語と該第2の単語のうち相対的に識別力が劣ると判断された単語を用いずに、単語の結合処理を行って略称を生成する、
    処理をコンピュータに実行させる略称生成プログラム。
JP2013074796A 2013-03-29 2013-03-29 略称生成方法および略称生成装置 Active JP6044422B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2013074796A JP6044422B2 (ja) 2013-03-29 2013-03-29 略称生成方法および略称生成装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013074796A JP6044422B2 (ja) 2013-03-29 2013-03-29 略称生成方法および略称生成装置

Publications (2)

Publication Number Publication Date
JP2014199580A JP2014199580A (ja) 2014-10-23
JP6044422B2 true JP6044422B2 (ja) 2016-12-14

Family

ID=52356431

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013074796A Active JP6044422B2 (ja) 2013-03-29 2013-03-29 略称生成方法および略称生成装置

Country Status (1)

Country Link
JP (1) JP6044422B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106959958B (zh) 2016-01-11 2020-04-07 阿里巴巴集团控股有限公司 地图兴趣点简称获取方法和装置

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11259499A (ja) * 1998-03-11 1999-09-24 Shimadzu Corp ファイル名表示装置
JP5082971B2 (ja) * 2008-03-25 2012-11-28 富士通株式会社 音声合成装置およびそれを用いた読み上げシステム。

Also Published As

Publication number Publication date
JP2014199580A (ja) 2014-10-23

Similar Documents

Publication Publication Date Title
JP5138046B2 (ja) 検索システム、検索方法およびプログラム
JP5338238B2 (ja) ワードの類似性を用いたオントロジーの自動生成
JP4682284B2 (ja) 文書差分検出装置
US8190632B2 (en) Computer product, information retrieving apparatus, and information retrieving method
JP2010003015A (ja) 文書検索システム
JP2011511341A5 (ja)
JP4114600B2 (ja) 可変長文字列検索装置及び可変長文字列検索方法並びにプログラム
US11520835B2 (en) Learning system, learning method, and program
JP4237813B2 (ja) 構造化文書管理システム
JP2020035172A (ja) 生成方法、生成プログラム、および生成装置
CN107169011A (zh) 基于人工智能的网页原创性识别方法、装置及存储介质
CN102257490A (zh) 文档信息选择方法和计算机程序产品
JP6044422B2 (ja) 略称生成方法および略称生成装置
US20090216739A1 (en) Boosting extraction accuracy by handling training data bias
JP2013191062A (ja) データ解析装置、データ分割装置、データ解析方法、データ分割方法、データ解析プログラム、及びデータ分割プログラム
US11113314B2 (en) Similarity calculating device and method, and recording medium
JP4682627B2 (ja) 文書検索装置および方法
JP4558369B2 (ja) 情報抽出システム、情報抽出方法、コンピュータプログラム
JP5184987B2 (ja) 索引情報作成装置、索引情報作成方法及びプログラム
JP5270199B2 (ja) テキスト検索処理を実行させるコンピュータソフトウエアプログラムおよびその処理方法
JP2020091607A (ja) 検索システム、及び検索方法
JP4319827B2 (ja) 文書検索プログラム
US20220138434A1 (en) Generation apparatus, generation method and program
JP2011243053A (ja) 帳票判別装置、帳票分類システム、帳票判別方法および帳票判別プログラム
US7840583B2 (en) Search device and recording medium

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20151204

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20160912

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20160920

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160929

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20161018

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20161031

R150 Certificate of patent or registration of utility model

Ref document number: 6044422

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150