JP6044422B2 - 略称生成方法および略称生成装置 - Google Patents
略称生成方法および略称生成装置 Download PDFInfo
- Publication number
- JP6044422B2 JP6044422B2 JP2013074796A JP2013074796A JP6044422B2 JP 6044422 B2 JP6044422 B2 JP 6044422B2 JP 2013074796 A JP2013074796 A JP 2013074796A JP 2013074796 A JP2013074796 A JP 2013074796A JP 6044422 B2 JP6044422 B2 JP 6044422B2
- Authority
- JP
- Japan
- Prior art keywords
- names
- words
- abbreviation
- name
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
名称A:ガトー風月福岡天神
名称B:ガトー風月福岡博多
名称C:ガトー風月宮崎
名称D:ガトーショコラ専門店
A:ガトー、風月、福岡、天神
B:ガトー、風月、福岡、博多
C:ガトー、風月、宮崎
D:ガトー、ショコラ、専門店
A:「ガトー、風月」、福岡、天神
B:「ガトー、風月」、福岡、博多
C:「ガトー、風月」、宮崎
A:ガトー、福岡、天神
B:ガトー、福岡、博多
C:ガトー、宮崎
D:ガトー、ショコラ、専門店
A:「ガトー、福岡」、天神
B:「ガトー、福岡」、博多
A:ガトー、天神
B:ガトー、博多
C:ガトー、宮崎
D:ガトー、ショコラ、専門店
略称A:ガトー天神
略称B:ガトー博多
略称C:ガトー宮崎
略称D:ガトーショコラ専門店
A:「ガトー、風月、福岡」、天神
B:「ガトー、風月、福岡」、博多
A:ガトー、風月、天神
B:ガトー、風月、博多
或いは、消去部14は、検索結果の件数が多い2つ共通語を、各名称A、Bから削除してもよい。そうすると、名称A、Bは、下記のように更新される。
A:ガトー、天神
B:ガトー、博多
すなわち、消去部14は、2以上の共通語のなかで相対的に識別力の低い少なくとも1つの単語を各名称からそれぞれ消去することができる。
図4は、本発明の他の実施形態の略称生成方法を示すフローチャートである。なお、S1、S2、S4〜S7、S9は、図3および図4に示す略称生成方法において、実質的に同じである。
図6は、本発明のさらに他の実施形態の略称生成方法を示すフローチャートである。ここで、S1の前処理およびS2の単語分解処理は、図3および図6に示す略称生成方法において、実質的に同じである。ただし、図6に示す略称生成方法においては、S1の前処理は、名称ファイルの各レコードに記録されている名称を50音順にソートする処理を含むものとする。なお、以下の説明では、50音順にソートされた名称ファイルを名称リストと呼ぶことがある。
S41において、略称生成装置1は、名称リストから連続する2つのレコードを選択する。なお、グループ化処理の開始時には、名称リストの先頭の2つのレコードが選択されるものとする。S42において、略称生成装置1は、S41で選択した2つのレコードに記録されている名称が、2以上の共通語を含むか否かを判定する。そして、2つのレコードに記録されている名称が2以上の共通語を含んでいないときは、略称生成装置1は、S43において、名称リストの次のレコードを指定する。この後、グループ化処理は、S41に戻る。
125:ガトー、天神
126:ガトー、博多
127:ガトー、宮崎
319:めんたい、天神
320:めんたい、博多
前処理部11は、名称ファイル(名称リスト)41のレコードを50音順にソートする処理等に加えて、他の処理を実行してもよい。例えば、前処理部11は、2以上の名称が予め指定された文字列を含むときに、それら2以上の名称からそれぞれその予め指定された文字列を削除してもよい。たとえば、顧客を管理するデータベースにおいては、多くの名称が「株式会社」を含んでいると考えられる。そして、このような文字列(ここでは、「株式会社」)は、識別力は低い。
S51において、前処理部11は、名称ファイル41に記録されている全名称からカタカナ文字列を抽出する。S52において、前処理部11は、より多くの名称に含まれている順に、抽出したカタカナ文字列を並べ替える。S53において、前処理部11は、並べ替えられたカタカナ文字列を1つ選択する。
図10は、略称生成装置1を実現するためのコンピュータシステムのハードウェア構成を示す。略称生成装置1を実現するためのコンピュータシステム100は、図10に示すように、CPU101、メモリ102、記憶装置103、読み取り装置104、通信インタフェース106、および入出力装置107を備える。CPU101、メモリ102、記憶装置103、読み取り装置104、通信インタフェース106、入出力装置107は、例えば、バス108を介して互いに接続されている。
(1)記憶装置103に予めインストールされている。
(2)着脱可能記録媒体105により提供される。
(3)プログラムサーバ110から提供される。
(付記1)
複数の名称をそれぞれ単語に分解し、
2以上の共通する単語を含む名称を抽出し、
前記2以上の共通する単語のなかの相対的に識別力の低い単語を、前記抽出された名称からそれぞれ消去し、
各名称について、消去されずに残っている単語を結合することにより対応する略称を生成する、
処理をコンピュータに実行させる略称生成プログラム。
(付記2)
前記消去する処理は、
前記2以上の共通する単語のそれぞれについて、検索エンジンに検索の実行を依頼する手順と、
前記2以上の共通する単語のなかで相対的に検索結果の件数が多い単語を、前記抽出された名称からそれぞれ消去する手順と、を含む
ことを特徴とする付記1に記載の略称生成プログラム。
(付記3)
前記複数の名称の中に含まれているカタカナ文字列を抽出し、
抽出したカタカナ文字列を、そのカタカナ文字列よりも文字数の少ないアルファベット文字に置き換える
処理をさらにコンピュータに実行させることを特徴とする付記1または2に記載の略称生成プログラム。
(付記4)
前記複数の名称の中の2以上の名称が予め指定された文字列を含むときに、前記2以上の名称からそれぞれ前記予め指定された文字列を削除する
処理をさらにコンピュータに実行させることを特徴とする付記1または2に記載の略称生成プログラム。
(付記5)
前記抽出する処理および前記消去する処理は、2以上の共通する単語を含む名称が検出されなくなるまで繰り返し実行される
ことを特徴とする付記1または2に記載の略称生成プログラム。
(付記6)
前記抽出する処理において、先に実行された前記消去する処理において識別力の高い単語であると判定された単語を除いて、2以上の共通する単語を含む名称が抽出される
ことを特徴とする付記5に記載の略称生成プログラム。
(付記7)
前記2以上の共通する単語のうちの相対的に識別力の低い単語が、先に実行された前記消去する処理において相対的に識別力の高い単語であると判定されていたときは、前記2以上の共通する単語のうちの相対的に識別力の低い単語を消去する処理を実行しない
ことを特徴とする付記5に記載の略称生成プログラム。
(付記8)
複数の名称が50音順にソートされて記録されている名称リストにおいて、各名称をそれぞれ単語に分解し、
前記名称リストにおいて、2以上の共通する単語を含む、連続して記録されている複数の名称をそれぞれグループ化し、
各グループにおいて、前記2以上の共通する単語のなかの相対的に識別力の低い単語を消去し、
各名称について、消去されずに残っている単語を結合することにより対応する略称を生成する、
処理をコンピュータに実行させる略称生成プログラム。
(付記9)
複数の名称をそれぞれ単語に分解し、
2以上の共通する単語を含む名称を抽出し、
前記2以上の共通する単語のなかの相対的に識別力の低い単語を、前記抽出された名称からそれぞれ消去し、
各名称について、消去されずに残っている単語を結合することにより対応する略称を生成する、
ことを特徴とする略称生成方法。
(付記10)
複数の名称をそれぞれ単語に分解する分解部と、
2以上の共通する単語を含む名称を抽出する抽出部と、
前記2以上の共通する単語のなかの相対的に識別力の低い単語を、前記抽出された名称からそれぞれ消去する消去部と、
各名称について、消去されずに残っている単語を結合することにより対応する略称を生成する生成部と、
を有する略称生成装置。
(付記11)
複数の名称のうちの第1の名称であって、該複数の名称のいずれにも含まれる第1、第2の単語と、少なくとも前記複数の名称のいずれかには含まれない第3の単語とを含む該第1の名称について、前記第1の単語と前記第2の単語の識別力を比較し、
該第1の単語と該第2の単語のうち相対的に識別力が勝ると判断された単語と、前記第3の単語とを用い、該第1の単語と該第2の単語のうち相対的に識別力が劣ると判断された単語を用いずに、単語の結合処理を行って略称を生成する、
処理をコンピュータに実行させる略称生成プログラム。
11 前処理部
12 分解部
13 抽出部
14 消去部
15 生成部
16 有効識別語記録部
21 ブラウザ
31 検索エンジン
Claims (7)
- 複数の名称をそれぞれ単語に分解し、
2以上の共通する単語を含む名称を抽出し、
前記2以上の共通する単語のなかの相対的に識別力の低い単語を、前記抽出された名称からそれぞれ消去し、
各名称について、消去されずに残っている単語を結合することにより対応する略称を生成する、
処理をコンピュータに実行させる略称生成プログラム。 - 前記消去する処理は、
前記2以上の共通する単語のそれぞれについて、検索エンジンに検索の実行を依頼する手順と、
前記2以上の共通する単語のなかで相対的に検索結果の件数が多い単語を、前記抽出された名称からそれぞれ消去する手順と、を含む
ことを特徴とする請求項1に記載の略称生成プログラム。 - 前記複数の名称の中に含まれているカタカナ文字列を抽出し、
抽出したカタカナ文字列を、そのカタカナ文字列よりも文字数の少ないアルファベット文字に置き換える
処理をさらにコンピュータに実行させることを特徴とする請求項1または2に記載の略称生成プログラム。 - 複数の名称が50音順にソートされて記録されている名称リストにおいて、各名称をそれぞれ単語に分解し、
前記名称リストにおいて、2以上の共通する単語を含む、連続して記録されている複数の名称をそれぞれグループ化し、
各グループにおいて、前記2以上の共通する単語のなかの相対的に識別力の低い単語を消去し、
各名称について、消去されずに残っている単語を結合することにより対応する略称を生成する、
処理をコンピュータに実行させる略称生成プログラム。 - コンピュータにより実行される略称生成方法であって、
前記コンピュータが、
複数の名称をそれぞれ単語に分解し、
2以上の共通する単語を含む名称を抽出し、
前記2以上の共通する単語のなかの相対的に識別力の低い単語を、前記抽出された名称からそれぞれ消去し、
各名称について、消去されずに残っている単語を結合することにより対応する略称を生成する、
ことを特徴とする略称生成方法。 - 複数の名称をそれぞれ単語に分解する分解部と、
2以上の共通する単語を含む名称を抽出する抽出部と、
前記2以上の共通する単語のなかの相対的に識別力の低い単語を、前記抽出された名称からそれぞれ消去する消去部と、
各名称について、消去されずに残っている単語を結合することにより対応する略称を生成する生成部と、
を有する略称生成装置。 - 複数の名称のうちの第1の名称であって、該複数の名称のいずれにも含まれる第1、第2の単語と、少なくとも前記複数の名称のいずれかには含まれない第3の単語とを含む該第1の名称について、前記第1の単語と前記第2の単語の識別力を比較し、
該第1の単語と該第2の単語のうち相対的に識別力が勝ると判断された単語と、前記第3の単語とを用い、該第1の単語と該第2の単語のうち相対的に識別力が劣ると判断された単語を用いずに、単語の結合処理を行って略称を生成する、
処理をコンピュータに実行させる略称生成プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013074796A JP6044422B2 (ja) | 2013-03-29 | 2013-03-29 | 略称生成方法および略称生成装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013074796A JP6044422B2 (ja) | 2013-03-29 | 2013-03-29 | 略称生成方法および略称生成装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2014199580A JP2014199580A (ja) | 2014-10-23 |
JP6044422B2 true JP6044422B2 (ja) | 2016-12-14 |
Family
ID=52356431
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2013074796A Active JP6044422B2 (ja) | 2013-03-29 | 2013-03-29 | 略称生成方法および略称生成装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6044422B2 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106959958B (zh) | 2016-01-11 | 2020-04-07 | 阿里巴巴集团控股有限公司 | 地图兴趣点简称获取方法和装置 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH11259499A (ja) * | 1998-03-11 | 1999-09-24 | Shimadzu Corp | ファイル名表示装置 |
JP5082971B2 (ja) * | 2008-03-25 | 2012-11-28 | 富士通株式会社 | 音声合成装置およびそれを用いた読み上げシステム。 |
-
2013
- 2013-03-29 JP JP2013074796A patent/JP6044422B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2014199580A (ja) | 2014-10-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5138046B2 (ja) | 検索システム、検索方法およびプログラム | |
JP5338238B2 (ja) | ワードの類似性を用いたオントロジーの自動生成 | |
JP4682284B2 (ja) | 文書差分検出装置 | |
US8190632B2 (en) | Computer product, information retrieving apparatus, and information retrieving method | |
JP2010003015A (ja) | 文書検索システム | |
JP2011511341A5 (ja) | ||
JP4114600B2 (ja) | 可変長文字列検索装置及び可変長文字列検索方法並びにプログラム | |
US11520835B2 (en) | Learning system, learning method, and program | |
JP4237813B2 (ja) | 構造化文書管理システム | |
JP2020035172A (ja) | 生成方法、生成プログラム、および生成装置 | |
CN107169011A (zh) | 基于人工智能的网页原创性识别方法、装置及存储介质 | |
CN102257490A (zh) | 文档信息选择方法和计算机程序产品 | |
JP6044422B2 (ja) | 略称生成方法および略称生成装置 | |
US20090216739A1 (en) | Boosting extraction accuracy by handling training data bias | |
JP2013191062A (ja) | データ解析装置、データ分割装置、データ解析方法、データ分割方法、データ解析プログラム、及びデータ分割プログラム | |
US11113314B2 (en) | Similarity calculating device and method, and recording medium | |
JP4682627B2 (ja) | 文書検索装置および方法 | |
JP4558369B2 (ja) | 情報抽出システム、情報抽出方法、コンピュータプログラム | |
JP5184987B2 (ja) | 索引情報作成装置、索引情報作成方法及びプログラム | |
JP5270199B2 (ja) | テキスト検索処理を実行させるコンピュータソフトウエアプログラムおよびその処理方法 | |
JP2020091607A (ja) | 検索システム、及び検索方法 | |
JP4319827B2 (ja) | 文書検索プログラム | |
US20220138434A1 (en) | Generation apparatus, generation method and program | |
JP2011243053A (ja) | 帳票判別装置、帳票分類システム、帳票判別方法および帳票判別プログラム | |
US7840583B2 (en) | Search device and recording medium |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20151204 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20160912 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20160920 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20160929 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20161018 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20161031 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6044422 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |