JP6135867B2 - 略語生成システム - Google Patents
略語生成システム Download PDFInfo
- Publication number
- JP6135867B2 JP6135867B2 JP2013558668A JP2013558668A JP6135867B2 JP 6135867 B2 JP6135867 B2 JP 6135867B2 JP 2013558668 A JP2013558668 A JP 2013558668A JP 2013558668 A JP2013558668 A JP 2013558668A JP 6135867 B2 JP6135867 B2 JP 6135867B2
- Authority
- JP
- Japan
- Prior art keywords
- abbreviation
- word
- words
- abbreviations
- generation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000006243 chemical reaction Methods 0.000 claims description 30
- 238000000034 method Methods 0.000 claims description 28
- 238000012545 processing Methods 0.000 claims description 13
- 238000004458 analytical method Methods 0.000 claims description 6
- 230000010365 information processing Effects 0.000 claims description 6
- 230000000877 morphologic effect Effects 0.000 claims description 4
- 239000000284 extract Substances 0.000 claims 1
- 230000002265 prevention Effects 0.000 description 20
- 238000005516 engineering process Methods 0.000 description 18
- 238000011160 research Methods 0.000 description 16
- 238000010586 diagram Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000009795 derivation Methods 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 230000008685 targeting Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
Description
情報処理システムを用いて略語とその元と成った原語とを対応づける機能は、名寄せ、情報検索、情報抽出など、自然言語を対象とする多くのアプリケーションにおいて有用な技術である。
略語と原語の対応を人手で収集して機械可読な辞書データを作成することは可能であり、現実社会で実施されている。一方で、新たな製品、サービス、作品、組織などの誕生に伴って、次々とコミュニティの中で自発的に略称が生成されるため、それらの略語を人手で正しく集めることには限界もある。特に名称について正しく辞書データを生成することは人手がかかり困難がある。このため、今日では、コーパスやWebなどから情報処理システムで自動的に対応付け辞書データを作成及び適宜更新することを行っている。
ところで、入力として正式名称である原語を受け付け、略語の候補を情報処理により自動的に生成する方法が提案されている。このような、略語生成方式の一例が、非特許文献1に記載されている。
非特許文献1に記載された略語自動推定方式では、確率モデルで作成された尤もらしい略語候補を抽出し、その抽出された略語候補についてWeb上の情報によって候補を絞り込むことが提案されている。候補の絞り込みは、略語候補の個々について、原語と略語候補が同義関係にあるかを検証することで、略語候補の絞り込みを行っている。ここで採択された確率モデルは、Noisy−channel modelである。また、非特許文献1には、変換ルールや望ましい提示の仕方などの既存技術についても説明されている。
一方、非特許文献1で説明されているような方式では、文字列タイプや、原語に対するモーラの位置の情報から略語に用いる形態素を選定するため、形態素自体の意味内容や形態素間の関係が考慮されていない。このような状況では、原語のパターンによって、コミュニティにおいて生成されるだろう略語とは異なる候補を略語候補として優先的に選択するなどといった問題が生じてしまう。換言すれば、ユーザが所望するコミュニティに則した略語候補を生成しきれていない。
また、非特許文献1に記載された略語自動推定方式で得られる略語候補は、既存のWebの情報を用いて検証を行なうため、既にインターネット内で使用されていることが求められる。このため、新規の略語やインターネット内で使用されない分野などには用いることができない問題点を有する。
本発明は、原語から、コミュニティにおいて生成される可能性の高い略語を精度よく生成する略語生成システムを提供する。
図2は、実施形態における処理動作例を示すフローチャートである。
図3は、略語候補の提示例を示す模式図である。
図4は、本発明に関する具現化の一例を示す構成図である。
図1を参照すると、実施形態の略語生成システムは、入力装置1、データ処理装置2、記憶装置3、出力装置4から構成される。入力装置1は、ユーザから原語や、略語の希望文字数、略語候補の表示数などを受け付ける装置である。また、入力装置4は、ユーザに対して生成した略語を提示する装置である。
データ処理装置2は、重要形態素選定部20と略語候補生成部21とを含み構成される。
重要形態素選定部20は、入力装置1から入力された原語に対して、形態素解析を行うと共に、形態素重要度ルール記憶部30に記憶されている形態素の内容に基づく重要度を示した指標に基づき、略語に使う形態素の選定を行なうように構成される。
略語候補生成部21は、選定された各形態素に、形態素変換ルール記憶部31に記憶されている変換ルールに基づき、各形態素の文字列を変換すると共に、ユーザに提示する略語候補を生成するように構成される。
記憶装置3は、データ処理装置2の各処理で用いるルールを保持している形態素重要度ルール記憶部30と形態素変換ルール記憶部31とを含む。
形態素重要度ルール記憶部30には、形態素選定のための形態素の重要度を定量化するためのルールがコミュニティ内で用いられた情報群に基づいて指標として作成されて記憶されている。換言すれば、形態素重要度ルール記憶部30には、個々の形態素について、コミュニティ内で略語の生成に用いられる度合いを示す指標が記憶されている。
このような重要度算出のための形態素重要度ルールは、コミュニティ内で用いられたことがある各種情報に基づいた、略語と原語を収集解析して構築された指標の集合となる。この形態素重要度ルールは、人手で作成したデータや、コーパスや原語と略語のペアが少なくとも記録されている略語データベースからコミュニティ内で用いられている略語の原語およびその類義語などを獲得したデータなどを用いることができる。
なお、コミュニティ内で用いられた各種情報としては、コミュニティ内で用いられている文章や音源などを用いることができる。例えば、コミュニティが作成した複数のドキュメントやコミュニティ内で用いられている原語体系に基づく文章コーパスや音声コーパスなどが挙げられる。
また、形態素重要度ルール記憶部30に記録する指標としては、形態素の組み合わせ毎に、組み合わせと扱われている形態素の何れが相対的に略語の生成に用いられやすいかを示す指標を用いることができる。
また、指標として、複数の形態素の組み合わせおいて、いずれの形態素または形態素の組み合わせが相対的に略語の生成に用いられやすい形態素又は形態素の組み合わせかを示す指標を用いることもできる。
また、指標として、形態素毎の略語への採用されている値を指標として用いることもできる。
また、これらの指標を組み合わせて用いることもできる。
形態素変換ルール記憶部31には、各形態素を略語生成のための文字列変換するためのルールが記憶されている。この変換ルールは、コミュニティ内で用いられた各種情報に基づいて、使用されていた変換ルールを収集解析して定められることが望ましい。
変換ルールは、例えば、「形態素の先頭一文字を採用する」というルールや、「先頭の形態素は先頭一文字を採用し、2番目の形態素は先頭二文字を採用する」、「濁音を少なくする」、「長音を無くする」、「英語への翻訳した結果の頭文字を取る」、「特定の形態素は変換しない」などの変換ルールが挙げられる。様々な既存の変換ルールを用いればよい。変換ルールが複数ある場合、それらのルールの適用の組み合わせ毎に候補を生成する。
次に、図2に示すフローチャートを参照して、具体的な処理例を用いて実施形態の動作を説明する。なお、入力される原語は「防災科学技術研究所」とする。
略語生成システムは、略語の生成を依頼された原語を入力装置1から受け付ける(ステップS1)。この際、ユーザの希望する条件などの入力も受け付けてもよい。
次に、重要形態素選定部20は、受け付けた原語について形態素解析を行い、略語生成に用いる形態素を選定する(ステップS2)。
例えば、「防災科学技術研究所」は「防災/科学/技術/研究/所」と形態素に分けられる。なお、ユーザから語に分割された状態(例えば「防災/科学/技術/研究所」など)で受け付ければ当該処理は省略できる。また、複数種類の分け方を選定して以後の処理を並列的に実施してもよい。
次に、重要形態素選定部20は、形態素重要度ルール記憶部30を参照して、各形態素の内容に従って重要度を算出し、この重要度に基づいて略語に用いる形態素を選定する(ステップS3)。
本例では、2つの形態素を組として扱い、この組に含まれる2つの形態素を比較して一方が他方に対して優先的に略語に採用されている確率を用いてスコアの算出を行い、その結果を重要度として優先すべき形態素を重要度の高低に従い選定する。
次に、略語候補生成部21は、形態素変換ルール記憶部31を参照して、選定された形態素に対して、形態素変換ルール(文字列の変換と組み合わせのルール)を適用して、略語の候補を生成する(ステップS4)。
例えば、「形態素の先頭一文字を採用する」というルールを重要度が高かった「防災」「科学」「研究」に適用して組み合わせれば、「防科研」となる。変換ルールが複数ある場合、それらのルールの適用の組み合わせ毎に1ないし複数の候補を生成してもよい。変換ルールはユーザが直接選択してもよいし、ユーザが入力した文字数などからシステムが定めてもよい。また、原語の字句解析によって自動的に選択されるようにしてもよい。また、コミュニティで用いられていた各種情報を反映させてシステムが選択するとなおよい。また、全ての変換ルールを適用してもよいし、変換ルールの適用数などをユーザに求めて、システムが提示する際に調整してもよい。
次に、略語候補生成部21は、出力装置4を介して生成した1ないし複数の略語候補をユーザに提示する(ステップS6)。この際にユーザに出力装置4を介して提示する画面例を図3に示す。
略語候補の提示は、先にユーザによって指定された数や、上記処理過程で得たスコア、原語との共起確率に基づくスコア、ユーザから受け付けた略語や原語への想いの文字列との何一致度などを統合的に用いて、所要に行えばよい。
また、個々の略語候補の有する文字と、原語の文字との対応付けをユーザに提示することが望ましい。図3では一番コミュニティに向いているだろう略語候補1のみについて、原語と略語の文字列としての関連を可視的に提示している。表示は、ユーザに選択された略語候補と原語が関連を可視的に提示されるようにしてもよい。
また、提示画面中に自由記述欄を設け、その記述欄に入力された文字列を用いてスコアを調整して生成した略語候補の提示順番を変更してもよい。この記述欄は例えば『思い』や『優先事項』などを個々に分けて受け付けて、それぞれ別の処理を割当てるようにしてもよい。また、最初の原語入力と同時的に受け付けるようにしてもよい。
ここでの調整は、記述された文字列の単語若しくは類似単語を識別して、生成した略語に用いた語との一致性を数値化して識別して、高い結果が得られた略語候補に加点を与えるなどを行なえばよい。このことで、提示順に『思い』や『優先事項』などを反映できる。
また、自由記述欄に入力された文字列に基づいて変換ルールの選択と行うようにしてもよい。
なお、各ルールに信頼度が割り当てられている場合は、信頼度の低いルールの組み合わせで生成される略語候補を出力しないようにしても良い。
例えば、ルールの信頼度の積を取り、閾値を用いて一定以下であれば出力しない方法が考えられる。
また、そのルールの信頼度や形態素の重要度を用いて、生成された個々の略語にスコア付けを行い、そのスコアと共に略語候補を出力しても良い。
このようなルールや信頼度には、人手で作成したものや既存技術で収集されている各種値を用いることができる。
ここで、優先すべき語を選定するための重要度ルールについて説明する。なお、以下に説明する形態素重要度ルールとは、コミュニティ内で用いられた各種情報に基づいて決定された、特定の形態素が別の形態素に比べて相対的に優先すべき確率を示した指標である。換言すれば、コミュニティで得られた情報から求めることができたコニュニティー内で結果として残っている形態素間の相対的な確率を示した指標である。
形態素重要度ルールは、例えば、以下のように定まる。
・「防災>科学:0.7(=防災は科学に比べて70%の確率で残る)」
・「防災>技術:0.7」
・「防災>研究:0.5」
・「防災>所:0.9」
・「科学>所:0.9」
・「科学>技術:0.6」
・「科学>所:0.9」
・「技術>所:0.9」
・「研究>科学:0.7」
・「研究>技術:0.6」
・「研究>所:0.9」
なお、逆の方向のルールの確率は、1からそのルールの確率を減算することとしてもよい。例えば一つ目のルールの逆方向は「科学>防災:0.3(=1.0−0.3)」となる。語の出現順を考慮するならば逆の方向のルールの確率も指標化すればよい。
本例では、この形態素重要度ルールを用いて、ある形態素の重要度を他の残りの形態素との比較結果で求まった値の和として計算する。
例えば、形態素である「防災」の重要度は、その原語(防災科学技術研究所)の内容に応じて比較された結果2.8となる。この値は、「0.7[防災と科学の比較]」「0.7[防災と技術の比較]」「0.5[防災と研究の比較]」「0.9[防災と所の比較]」の和である。
このように、重要形態素選定部20は、原語に含まれる全形態素に対して同様の計算処理を行い、各形態素の重要度を算出する。なお、各形態素の値は以下の通りとなる。
・「防災」 2.8(=0.7+0.7+0.5+0.9)
・「科学] 2.1(=0.3+0.6+0.3+0.9)
・「技術」 1.9(=0.3+0.4+0.3+0.9)
・「研究] 2.7(=0.5+0.7+0.6+0.9)
・「所」 0.4(=0.1+0.1+0.1+0.1)
例えば、残す語(形態素)として3単語を選定するならば、値が高い順に「防災」「科学」「研究」となり、2単語ならば「防災」「研究」となる。このように、選ぶ単語数には任意性があるが、重要度に対する閾値や順位に基づいて選定すれば良い。なお、全ての語を候補に残して、略語候補生成部21側で調整してもよい。
本例ではこのように、形態素の2つ組のいずれか一方が他方に対して略語候補に優先的に残る確率に基づいて、各形態素を略語候補に用いるスコアを計算する。このため、形態素自体の意味内容や形態素間の関係が、実際のコミュニティで用いられていた略語の事例から求めた統計的観点を通じて考慮され、良好な候補の導出に繋がる。
この際に、選択された各形態素を、あらかじめ収集されたコミュニティで用いられていた略語の事例に基づく変換ルールに従って、文字列の変換を行いうことが望ましい。このことによって、更にコミュニティにおいて生成される可能性の高い略語を精度よく自動生成できる。
本例では、形態素間の比較による重要度の計算を示したが、これに限定されるものではない。例えば、1形態素の重要度を用いてもよいし、3形態素以上の比較を用いてもよい。
1形態素の重要度には、例えばTFIDFなど、単語の重要度を定量化する任意の尺度を用いることができ、語毎の略語への採用されている値を用いればよい。
3形態素以上の場合は、複数形態素間の比較を2形態素間の方法と同じように扱うことができる。例えば、「研究>技術,所:0.8」や「技術>研究,所:0.5」などである。また、「技術,研究>所:0.9」や「防災,技術>研究,所:0.4」などのように、語または語の組み合わせに対して、別の語または語の組み合わせに対して相対的な略語の生成に用いられやすいかを示す指標を用いてもよい。
なお、略語生成システムの各部は、ハードウェアとソフトウェアの組み合わせを用いて実現すればよい。ハードウェアとソフトウェアとを組み合わせた形態では、RAMに略語生成用プログラムが展開され、プログラムに基づいて制御部(CPU)等のハードウェアを動作させることによって、各部を各種手段として実現する。また、このプログラムは、記憶媒体に固定的に記録されて頒布されても良い。当該記録媒体に記録されたプログラムは、有線、無線、又は記録媒体そのものを介して、メモリに読込まれ、制御部等を動作させる。尚、記録媒体を例示すれば、オプティカルディスクや磁気ディスク、半導体メモリ装置、ハードディスクなどが挙げられる。
上記実施の形態を別の表現で説明すれば、略語生成システムとして動作させる情報処理システムを、RAMに展開された略語生成プログラムに基づき、重要語選定手段、略語候補生成手段、重要度ルール記憶手段、変換ルール記憶手段として制御部を動作させることで実現することが可能である。
また、略語生成システムは、図4に例示すようにコンピュータ単体として構築してもよいし、サーバ−クライアントシステムとして構築してもよい。
以上に実施の形態および処理例を図示して説明したが、そのブロック構成の分離併合、手順の入れ替えなどの変更は本発明の趣旨および説明される機能を満たせば自由であり、上記実施形態の説明が本発明を限定するものではない。
例えば、略語生成システムをサーバを用いてインターネット上に構築することも可能である。
以上説明したように、本発明によれば、原語から、コミュニティにおいて生成される可能性の高い略語を精度よく生成する略語生成システムを提供できる。
すなわち、コミュニティにおいて生成される可能性の高い略語を精度よく自動生成することが可能となる。
また、本発明は、生成した略語を収集することによって、コンピュータ装置、インターネットシステムなどにおける名寄せ、情報検索、情報抽出などに使用できる。
この出願は、2012年2月16日に出願された日本出願特願2012−031826号を基礎とする優先権を主張し、その開示の全てをここに取り込む。
2 データ処理装置
3 記憶装置
4 出力装置
20 重要形態素選定部(重要語選定部、重要語選定手段)
21 略語候補生成部(略語候補生成手段)
30 形態素重要度ルール記憶部(重要度ルール記憶部、重要度ルール記憶手段)
31 形態素変換ルール記憶部(変換ルール記憶部、変換ルール記憶手段)
Claims (18)
- 所定の語と その語の略語への生成に用いられる度合いを示す指標と をコミュニティ内で用いられた情報群に類似するように関連付けて記憶した重要度ルール記憶手段と、
受け付けた複数の語から成る原語について、前記複数の語ごとに前記指標を相互に比較処理して順序付けることにより、前記複数の語から 略語の生成に用いる語を 優先すべき順に選定する重要語選定手段と、
選定された語を用いて略語候補を生成処理すると共に該略語候補を出力する略語候補生成手段と、
を含み成ることを特徴とする原語の文字列から略語を生成する略語生成システム。 - 前記重要度ルール記憶手段には、前記指標として、語の組み合わせ毎に、組み合わせと扱われている語の何れが相対的に略語の生成に用いられやすいかを示す指標が各語に関連付けて記憶され、
前記重要語選定手段は、原語における語の組み合わせ毎に、各語毎に略語の生成に用いられやすさを示す前記指標を相互に比較処理して順序付けることにより、前記複数の語から略語の生成に用いる語を優先すべき順に選定し、
前記略語候補生成手段は、選定された語を用いて、1ないし複数の略語を生成して出力する
ことを特徴とする請求項1に記載の略語生成システム。 - 前記重要度ルール記憶手段には、前記指標として、複数の語の組み合わせおいて、いずれの語または語の組み合わせが相対的に略語の生成に用いられやすい語又は語の組み合わせであるかを示す指標が各語に関連付けて記憶され、
前記重要語選定手段は、前記指標に基づいて原語における語又は語の組み合わせについて略語の生成に用いられやすい語を抽出することにより、前記複数の語から略語の生成に用いられる語を選定し、
前記略語候補生成手段は、選定された語を用いて、1ないし複数の略語を生成して出力する
ことを特徴とする請求項1に記載の略語生成システム。 - 前記重要度ルール記憶手段には、前記指標として、語毎の略語への採用されている値が各語に関連付けて記憶され、
前記重要語選定手段は、前記指標に基づいて、前記複数の語ごとに前記指標の値を相互に比較処理して高い値の語を略語の生成に用いる語として優先すべき順に選定し、
前記略語候補生成手段は、選定された語を組み合わせて1ないし複数の略語を生成して出力する
ことを特徴とする請求項1に記載の略語生成システム。 - 選定された各語を略語生成のための文字列変換に関するコミュニティ内で用いられた情報群に基づいて定められた 変換ルールを記憶する変換ルール記憶手段を含み、
前記略語候補生成手段は、選定された語を用いて前記変換ルールに従った1ないし複数の略語を生成して出力する
ことを特徴とする請求項1ないし4の何れか一項に記載の略語生成システム。 - 前記重要語選定手段は、前記原語に形態素解析を行なうことにより該原語を構成していた前記複数の語を抽出処理して、前記複数の語から略語の生成に用いられる語を選定する ことを特徴とする請求項1ないし5の何れか一項に記載の略語生成システム。
- 前記重要語選定手段は、前記原語をユーザから構成する語毎に分けて受け付けて、語毎に分けて受け付けた前記複数の語から略語の生成に用いられる語を選定する ことを特徴とする請求項1ないし5の何れか一項に記載の略語生成システム。
- 前記略語候補生成手段は、生成した略語を略語候補として提示する際に、原語と略語の文字列としての関連性を可視的に関連付ける処理を行って提示する ことを特徴とする請求項1ないし7の何れか一項に記載の略語生成システム。
- 前記指標は、前記コミュニティで用いられている文章を受け付けて、略語を用いる対象のコミュニティ内で用いられている略語および該略語の原語を収集解析して構築され、
該コミュニティで用いられている略語から構築された指標を用いて、略語を生成する
ことを特徴とする請求項1ないし8の何れか一項に記載の略語生成システム。 - 前記変換ルールは、前記コミュニティで用いられている文章を受け付けて、略語を用いる対象のコミュニティ内で用いられている略語および該略語の原語を収集解析して構築され、
該コミュニティで用いられている略語から構築された変換ルールを用いて、略語を生成する
ことを特徴とする請求項9に記載の略語生成システム。 - 予めコミュニティ内で用いられた情報群に類似するように、所定の語と その語の略語への生成に用いられる度合いを示す指標と を関連付けて記憶保持し、
略語を生成する際に、
複数の語から成る原語を受け付け処理し、
前記複数の語ごとに前記指標を相互に比較処理して順序付けることにより、前記複数の語から略語の生成に用いる語を優先すべき順に選定処理し、
選定された語を用いて、略語候補を生成処理して該略語候補を出力する
ことを特徴とする原語の文字列から略語を生成処理する略語生成方法。 - 予め記憶保持された前記指標には、語の組み合わせ毎に、組み合わせと扱われている語の何れが相対的に略語の生成に用いられやすいかを示す指標が各語に関連付けて記憶され、
前記重要語の選定処理では、原語における語の組み合わせ毎に、各語毎に略語の生成に用いられやすさを示す前記指標を相互に比較処理して順序付けることにより、前記複数の語から略語の生成に用いる語を優先すべき順に選定し、
前記略語の生成処理では、選定された語を用いて、1ないし複数の略語を生成する
ことを特徴とする請求項11に記載の略語生成方法。 - 予め記憶保持された前記指標には、複数の語の組み合わせおいて、いずれの語または語の組み合わせが相対的に略語の生成に用いられやすい語又は語の組み合わせであるかを示す指標が各語に関連付けて記憶され、
前記重要語の選定処理では、前記指標に基づいて原語における語又は語の組み合わせについて略語の生成に用いられやすい語を抽出することにより、前記複数の語から略語の生成に用いられる語を選定し、
前記略語の生成処理では、選定された語を用いて、1ないし複数の略語を生成する
ことを特徴とする請求項11に記載の略語生成方法。 - 予め記憶保持された前記指標には、語毎の略語への採用されている値が各語に関連付けて記憶され、
前記重要語の選定処理では、前記指標に基づいて、
前記複数の語ごとに前記指標の値を相互に比較処理して高い値の語を略語の生成に用いる語として優先すべき順に選定し、
前記略語の生成処理では、選定された語を組み合わせて1ないし複数の略語を生成する
ことを特徴とする請求項11に記載の略語生成方法。 - 情報処理システムを、
所定の語と その語の略語への生成に用いられる度合いを示す指標と をコミュニティ内で用いられた情報群に類似するように関連付けて記憶した重要度ルール記憶手段と、
受け付けた複数の語から成る原語について、前記複数の語ごとに前記指標を相互に比較処理して順序付けることにより、前記複数の語から 略語の生成に用いる語を 優先すべき順に選定する重要語選定手段と、
選定された語を用いて略語候補を生成処理すると共に該略語候補を出力する略語候補生成手段、
として動作させることを特徴とする原語の文字列から略語の生成に用いる略語生成用プログラム。 - 前記重要度ルール記憶手段には、前記指標として、語の組み合わせ毎に、組み合わせと扱われている語の何れが相対的に略語の生成に用いられやすいかを示す指標が各語に関連付けて記憶され、
前記重要語選定手段は、原語における語の組み合わせ毎に、各語毎に略語の生成に用いられやすさを示す前記指標を相互に比較処理して順序付けることにより、前記複数の語から略語の生成に用いる語を優先すべき順に選定し、
前記略語候補生成手段は、選定された語を用いて、1ないし複数の略語を生成して出力する
ように動作させることを特徴とする請求項15に記載の略語生成用プログラム。 - 前記重要度ルール記憶手段には、前記指標として、複数の語の組み合わせおいて、いずれの語または語の組み合わせが相対的に略語の生成に用いられやすい語又は語の組み合わせであるかを示す指標が各語に関連付けて記憶され、
前記重要語選定手段は、前記指標に基づいて原語における語又は語の組み合わせについて略語の生成に用いられやすい語を抽出することにより、前記複数の語から略語の生成に用いられる語を選定し、
前記略語候補生成手段は、選定された語を用いて、1ないし複数の略語を生成して出力する
ように動作させることを特徴とする請求項15に記載の略語生成用プログラム。 - 前記重要度ルール記憶手段には、前記指標として、語毎の略語への採用されている値が各語に関連付けて記憶され、
前記重要語選定手段は、前記指標に基づいて、前記複数の語ごとに前記指標の値を相互に比較処理して高い値の語を略語の生成に用いる語として優先すべき順に選定し、
前記略語候補生成手段は、選定された語を組み合わせて1ないし複数の略語を生成して出力する
ように動作させることを特徴とする請求項15に記載の略語生成用プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013558668A JP6135867B2 (ja) | 2012-02-16 | 2013-02-04 | 略語生成システム |
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012031826 | 2012-02-16 | ||
JP2012031826 | 2012-02-16 | ||
JP2013558668A JP6135867B2 (ja) | 2012-02-16 | 2013-02-04 | 略語生成システム |
PCT/JP2013/052968 WO2013121988A1 (ja) | 2012-02-16 | 2013-02-04 | 略語生成システム |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2013121988A1 JPWO2013121988A1 (ja) | 2015-05-11 |
JP6135867B2 true JP6135867B2 (ja) | 2017-05-31 |
Family
ID=48984100
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2013558668A Active JP6135867B2 (ja) | 2012-02-16 | 2013-02-04 | 略語生成システム |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP6135867B2 (ja) |
WO (1) | WO2013121988A1 (ja) |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7475343B1 (en) * | 1999-05-11 | 2009-01-06 | Mielenhausen Thomas C | Data processing apparatus and method for converting words to abbreviations, converting abbreviations to words, and selecting abbreviations for insertion into text |
WO2009041220A1 (ja) * | 2007-09-26 | 2009-04-02 | Nec Corporation | 略語生成装置およびプログラム、並びに、略語生成方法 |
JP5305971B2 (ja) * | 2009-02-19 | 2013-10-02 | 株式会社東芝 | 略語推定装置および方法 |
-
2013
- 2013-02-04 JP JP2013558668A patent/JP6135867B2/ja active Active
- 2013-02-04 WO PCT/JP2013/052968 patent/WO2013121988A1/ja active Application Filing
Also Published As
Publication number | Publication date |
---|---|
JPWO2013121988A1 (ja) | 2015-05-11 |
WO2013121988A1 (ja) | 2013-08-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Şeker et al. | Initial explorations on using CRFs for Turkish named entity recognition | |
Oufaida et al. | Minimum redundancy and maximum relevance for single and multi-document Arabic text summarization | |
JP5106636B2 (ja) | テキストセグメントを有する文書から用語を抽出するためのシステム | |
JP4701292B2 (ja) | テキスト・データに含まれる固有表現又は専門用語から用語辞書を作成するためのコンピュータ・システム、並びにその方法及びコンピュータ・プログラム | |
JP6466952B2 (ja) | 文章生成システム | |
US20140351228A1 (en) | Dialog system, redundant message removal method and redundant message removal program | |
US9594742B2 (en) | Method and apparatus for matching misspellings caused by phonetic variations | |
JP6404511B2 (ja) | 翻訳支援システム、翻訳支援方法、および翻訳支援プログラム | |
JP2014106665A (ja) | 文書検索装置、文書検索方法 | |
WO2019093172A1 (ja) | 類似性指標値算出装置、類似検索装置および類似性指標値算出用プログラム | |
CN107870900B (zh) | 提供翻译文的方法、装置以及记录介质 | |
WO2010109594A1 (ja) | 文書検索装置、文書検索システム、文書検索プログラム、および文書検索方法 | |
JP2012022599A (ja) | 文構造解析装置、文構造解析方法および文構造解析プログラム | |
KR102351745B1 (ko) | 사용자 리뷰 기반 평점 재산정 장치 및 방법 | |
JP5642037B2 (ja) | 検索装置、検索方法およびプログラム | |
KR101646159B1 (ko) | Srl 기반의 문장 분석 방법 및 장치 | |
WO2010103916A1 (ja) | 文書の特徴語提示装置及び特徴語の優先度付与プログラム | |
JP2012074087A (ja) | 文書検索システム、文書検索プログラム、および文書検索方法 | |
de Mendonça Almeida et al. | Evaluating phonetic spellers for user-generated content in Brazilian Portuguese | |
JP6135867B2 (ja) | 略語生成システム | |
Lin et al. | Evaluating Cross-lingual Semantic Annotation for Medical Forms. | |
Al Oudah et al. | Wajeez: An extractive automatic arabic text summarisation system | |
JP4478042B2 (ja) | 頻度情報付き単語集合生成方法、プログラムおよびプログラム記憶媒体、ならびに、頻度情報付き単語集合生成装置、テキスト索引語作成装置、全文検索装置およびテキスト分類装置 | |
JP5506482B2 (ja) | 固有表現抽出装置、文字列−固有表現クラス対データベース作成装置、固有表現抽出方法、文字列−固有表現クラス対データベース作成方法、プログラム | |
JP5289261B2 (ja) | 文章変換装置、方法及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20151222 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20160122 |
|
A711 | Notification of change in applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A711 Effective date: 20160212 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20160212 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20170329 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20170411 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6135867 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |