JP5293607B2

JP5293607B2 - 略語生成装置およびプログラム、並びに、略語生成方法

Info

Publication number: JP5293607B2
Application number: JP2009534254A
Authority: JP
Inventors: 雅弘西光; 清一三木; 健花沢; 山本　　仁
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2007-09-26
Filing date: 2008-09-02
Publication date: 2013-09-18
Anticipated expiration: 2028-09-02
Also published as: WO2009041220A1; JPWO2009041220A1

Description

本発明は、ある単語の表記・音韻等を組み合わせて、表記・音韻上は異なるが同じ物・事を表す別の表記を生成する略語生成装置に関し、特に人手にかかる労力が少なく、かつ高精度にその略語を生成する略語生成装置等に関する。

世間一般に通常用いられている語のなかには、ある語の表記・音韻等を組み合わせて、表記・音韻上は異なるが同じ物・事を表す語（以下、略語という。）が存在する。例えば、「パーソナルコンピュータ」を表す略語として「パソコン」、「シネマコンプレックス」を表す略語として「シネコン」などがある。なお、日本語では、「パーソナルコンピュータ」の略語として「パソコン」が一般的に使用されている。これらの略語は、世間一般で日常用いられている語であり、日常会話や文書等にも頻繁に出現する。したがって、日常会話や文書等を処理する、音声認識、音声検索、テキスト検索、機械翻訳等の音声言語処理においては、これらの略語を元の語と同義な語と認定し、各々の音声言語処理に用いる単語辞書にその語を登録する必要がある。従来、このような略語を生成する技術として、例えば、特許文献１及び非特許文献１に記載のものがある。

特許文献１に記載の技術は、ある語を構成単語に分割し、その構成単語ごとのモーラ列（読みがな列）を生成し、事前に用意した生成規則に基づいてそのモーラ列からモーラを取り出して連接することにより略語を生成する。非特許文献１に記載の技術は、ある語を構成単語に分割し、事前に用意した生成規則に関する５種類の確率モデルに基づいて、元の語の表記の部分の組み合わせから略語を生成する。
特許第３７２４６４９号村山起文、奥村学、"Ｎｏｉｓｙ−ｃｈａｎｎｅｌｍｏｄｅｌを用いた略語自動推定"、言語処理学会全国大会、日本、２００６年、３月１３日

しかしながら、上記特許文献１及び非特許文献１に記載の技術は、事前に人手で用意した生成規則に基づき略語を生成するため、高精度に略語を生成するための生成規則の構築に特殊な専門知識と膨大な労力を必要とするという課題がある。

本発明は、このような問題点を解決するためになされたものであり、特殊な専門知識と膨大な労力を必要せず、かつ高精度な略語生成装置、略語生成方法及びプログラムを提供することを目的とする。

本発明に係る略語生成装置は、ある単語の略語を生成する略語生成装置であって、単語を特徴量系列に分析する単語分析部と、あらかじめ特徴量系列を統計的にモデル化した略語生成モデルを参照し、前記単語分析部の分析結果である特徴量系列から前記単語の略語を生成する略語生成部とを備えるものである。

本発明に係る略語生成方法は、ある単語の略語を生成する略語生成方法であって、単語を特徴量系列に分析する単語分析工程と、あらかじめ特徴量系列を統計的にモデル化した略語生成モデルを参照し、前記単語分析工程の分析結果である特徴量系列から前記単語の略語を生成する略語生成工程とを有するものである。

本発明に係るプログラムは、ある単語の略語を生成する動作をコンピュータに実行させるためのプログラムであって、単語を特徴量系列に分析する単語分析工程と、あらかじめ特徴量系列を統計的にモデル化した略語生成モデルを参照し、前記単語分析工程の分析結果である特徴量系列から前記単語の略語を生成する略語生成工程とを有するものである。

本発明によれば、語の構成単語やそのモーラ等の複数の情報を用いて、機械学習に基づき自動的に構築した略語生成モデルを用いて略語を生成する。これにより、略語生成の上で従来必要としていた生成規則構築に要する特殊な専門知識と膨大な労力を削減することができる。また、人手で生成規則を構築する際には困難であった原語に関する複数の素性の組み合わせが実行可能となり、略語の生成精度を向上させることができる。

本発明の第１の実施例に係る略語生成装置を示すブロック図である。本発明の第１の実施例に係る略語生成装置の動作を示すフローチャートである。本発明の第１の実施例に係る略語生成装置の動作の具体例を示す図である。略語生成モデルを学習するための学習データの一例を示す図である。略語生成部が一時的に生成する中間データ等を記憶するテーブルの一例を示す図である。本発明の第１の実施例に係る略語生成装置の動作の他の具体例を示す図である。本発明の第２の実施例に係る略語生成装置を示すブロック図である。本発明の第２の実施例に係る略語生成装置の動作を示すフローチャートである。本発明の第２の実施例に係る略語生成装置の動作の具体例を示す図である。原語「着信メロディ」と各略語の共起頻度のテーブルの一例を示す図である。本発明の実施例にかかるコンピュータを示す図である。

符号の説明

１１単語解析部
１２略語生成部
１３原語
１４略語生成モデル
１５略語
１６単語分析用辞書
２１略語判定部
２２原語リソース
１０１略語生成装置
１０２略語生成装置

以下、本発明を適用した具体的な実施の形態について、図面を参照しながら詳細に説明する。この実施の形態は、本発明を、語の構成単語やそのモーラ等の複数の情報を用いて、機械学習に基づき自動的に構築した略語生成モデルを用いて略語を生成する略語生成装置に適用したものである。

図１は、本発明の実施例に係る略語生成装置を示す図である。本実施形態の略語生成装置１０１は、単語分析部１１と、略語生成部１２と、略語生成モデル１４とを備える。単語分析部１１、及び略語生成部１２は、略語生成装置１０１のＣＰＵ（Central Processing Unit）（図示略）が実行するプログラムに対応する構成要素である。原語１３及び略語１５は、略語生成装置１０１の記憶デバイス（図示略）に記憶されたデータである。単語分析用辞書１６は、単語分析部１１において単語を分析するための辞書である。

原語１３は、略語を生成するための元となる語を示す。本実施例において、略語１３は、音声言語処理にて用いられる単語辞書に登録された単語の集合、ＷＷＷから収集したテキストデータから抽出される単語の集合のような予め用意された語である。

単語分析部１１は、単語分析用辞書１６を用いて原語１３を分析し、所定の原語に関する特徴量系列を抽出して略語生成部１２に提供する。本実施例において、原語に関する特徴量系列とは、例えば原語を構成している文字の文字種、文字境界、形態素情報、形態素境界、モーラ、読み、音素の系列である。他にも、原語に含まれる単語の属性（表記、読み、単語位置、単語数、文字位置、文字数、モーラ位置、モーラ数、音素数、品詞、細品詞、格パタン、活用形、意味属性、類義語、重要度（例えばｔｆ（単語の出現頻度）−ｉｄｆ（逆出現頻度）値等）など）、原語に含まれる単語間の関係（共起、係り受けなど）、原語を含む文の構造（構文構造、文の構成要素、文法パタン、章・節・段落構造、起承転結構造など）、原語を含む文の意味内容（文書・段落・文の話題語、要約、キーワードなど）などの系列を用いても良い。

ここで、特徴量系列の抽出とは、該当する特徴量の値を計算することや、特徴量の出現頻度を求める処理を指す。略語生成モデル１４は、単語分析部１１において抽出された、原語に関する特徴量系列に基づき略語を生成するために統計的に学習されたモデルである。略語生成モデル１４は、本実施例では、条件付確率場（CRF：Conditional Random Fields）モデルを用いることができる。このとき、略語生成モデル１４を次の式（１）のように定義することができる。

式（１）において、"ｘ"は略語を生成するための元となる原語１３である。また、"ｙ"は略語生成の結果であり、例えば、略語としてあるモーラを用いるか否かのラベル系列（すなわち、略語として得られる文字列そのもの）であり、"Ｐ（ｙ｜ｘ）"は"ｘ"に対する"ｙ"の生起確率である。また、各ラベルに関する信頼度なども算出可能である。"Λ"はモデルパラメタの集合である。"Φ（ｙ，ｘ）"は特徴量の値の集合であり、単語分析部１１が抽出した原語に関する複数の特徴量、もしくはそれらの組み合わせである。"Ｚｘ"は正規化項である。略語生成モデル１４としては、この他に、ニューラルネットワーク、隠れマルコフモデル（ＨＭＭ）、あるいは、サポートベクタマシン（ＳＶＭ）などを用いることができる。

略語生成部１２は、単語分析部１１において抽出された、原語に関する特徴量系列と、略語生成モデル１４を用いて略語を生成し、出力する。略語生成部１２は、略語生成モデル１４として、例えば略語構成文字にラベルを付与するラベルモデルを使用することができる。略語１５は、略語生成部１２が出力した略語仮説を表し、例えば、複数の略語仮説を含むＮベストで表現される。

図２に示すフローチャートを参照して、上記の略語生成装置１０１の動作について説明する。略語生成装置１０１は、記憶デバイスから原語１３および略語生成モデル１４を読み出すと、原語１３を単語分析部１１へ入力し、略語生成モデル１４を略語生成部１２へ入力する（ステップＳ１）。また、単語解析用辞書１６を単語解析部１１へ入力する。

単語分析部１１は、単語分析用辞書１６を用いて、入力された原語１３から原語に関する特徴量系列を抽出する（ステップＳ２）。そして、略語生成部１２が、抽出された原語に関する特徴量系列および略語生成モデル１４を用いて略語１５を求め、それを記憶デバイスに保存する（ステップＳ３）。

次に、図２に示された略語生成装置１０１の具体的な動作例について説明する。このときの具体例として、原語１３を「着信メロディ」とし、略語生成モデル１４を、抽出された特徴量系列に基づき、原語の各モーラに略語の読みとなるか否かのラベルを付与する条件付確率場モデルとする。なお、日本語では、「着信メロディ」を意味する「チャクシンメロディ」という原語を、「チャクメロ」と略すことがある。図３は、その具体例を示したフローチャートであり、図４は略語生成モデル１４を学習するための学習データの例であり、図５は略語生成部１２が一時的に生成する中間データ等を記憶するテーブルの例である。

略語生成装置１０１は、記憶デバイスから原語１３および略語生成モデル１４を読み出すと、原語１３である「着信メロディ」を単語分析部１１へ入力し、略語生成モデル１４を略語生成部１２へ入力する（ステップＳ１）。

単語分析部１１は、単語分析用辞書１６を用いて、例えば形態素解析等を行うことで入力された原語１３から原語に関する特徴量系列を抽出する（ステップＳ２）。つまり、原語「着信メロディ」から、例えば、原語に含まれる単語として「着信」「メロディ」や、その単語の読み「着信（チャクシン）」、「メロディ」、単語の読みから構成されるモーラ列「チャクシンメロディ」、モーラ列に含まれる各モーラに対応する文字「チャ（着）」などが抽出される。

次に、略語生成部１２が、抽出された原語「着信メロディ」に対する特徴量系列である「着信」「メロディ」「着信（チャクシン）」「チャクシンメロディ」などから、略語生成モデル１４を用いて略語１５を求め、それを記憶デバイスに保存する（ステップＳ３）。このとき、略語生成モデル１４は、単語分析部１１において抽出された特徴量系列に基づき、略語の読みとなるか否かのラベルを付与する条件付確率場モデルであり、例えば図４に示すようなデータから学習される。

図４の学習データは、原語の読み（例えば「テレフォンカード」や「ケイタイデンワ」）とそのうちどの部分が略語の読みとして採用されたか（例えば「テレカ」や「ケータイ」）が、単語分析部１１で用いられる原語に関する特徴量とともに記録されており、このようなデータを用意して学習させることで、この具体例で示す略語生成モデル１４を得ることができる。なお、日本語では、「テレフォンカード」の略語として「テレカ」が一般的に使用され、「携帯電話」の略語として、「ケータイ」が一般的に使用されている。

略語生成部１２では「着信メロディ」のモーラ列「チャクシンメロディ」の各モーラに対して、図５に示すように原語の特徴量に略語生成モデル１４を適用し、略語とするか否かのラベル「○」「×」を「○○××○○×」のように付与し出力することで、「チャクシンメロディ」から「チャク（シン）メロ（ディ）」（カッコ内は略語として用いない、すなわち「×」となることを示す）という略語を生成する。
ここで、図５に示す「文字境界」とは、文字（漢字、ひらがな、カタカナ）の先頭となる文字（読み）を指す。例えば「着」の文字（漢字）であれば、読みは「チャ」「ク」の２語であり、このうちの先頭の「チャ」が文字境界となる（「チャ」の欄→「１」）。一方、「ク」は、読みの先頭にならないため、「０」が記入される。同様に、「信」の文字（漢字）の読みは、「シ」「ン」であり、「シ」が「信」の読みの先頭であるため文字境界となる（「シ」の欄→「１」）。また、カタカナの場合は、常に一文字は一文字の読み方（「メ」の読みは、「め」の一文字）であるので、全てのカタカナは、文字境界となり、「１」が格納される。ひらがなも同様である。

この「○」「×」のラベル系列に対して生起確率が算出され、複数の略語候補（例えばこの例では「チャク（シン）メロ（ディ）」や「チャク（シン）メ（ロディ）」等）に対し、候補毎にその妥当性を示す値を付与することができる。すなわち、例えば「○○××○○×（チャクメロ）：0.81」「○○××○××（チャクメ）：0.07」などが得られ、例えばスコアの良い順に並べることでＮベストが実現できる。

図６は、本発明の第１の実施例に係る略語生成装置の動作を示す他の具体例を示す図である。略語生成部１２では「Ａｂｂｒｅｖｉａｔｉｏｎ」の文字列「Ａｂｂｒｅｖｉａｔｉｏｎ」の各文字に対して、原語の特徴量に略語生成モデル１４を適用する。そして、各文字に対して略語とするか否かのラベル「○」「×」を「○○○○○○××××××」のように付与し出力する。この結果、「Ａｂｂｒｅｖｉａｔｉｏｎ」から「Ａｂｂｒｅｖ（ｉａｔｉｏｎ）」（カッコ内は略語として用いない、すなわち「×」となることを示す）という略語を生成する。

以上説明した第１の実施例によれば、人手で構築された略語生成規則を用いるのではなく、原語に関する複数の特徴量に基づく比較的容易に構築可能な統計的な略語生成モデルを用いて、略語を生成することができる。これにより、従来、特殊な専門知識と膨大な労力を必要としていた略語の生成規則を構築する必要がなく、少ない労力で略語を生成できる。また、機械学習に基づく統計的な略語生成モデルを用いることにより、人手で生成規則を構築する際には困難であった原語に関する複数の素性の組み合わせが実行可能となり、略語の生成精度を向上させることができる。

次に、本発明の第２の実施例について説明する。図７に、本発明の第２の実施例に係る略語生成装置の構成を示す。なお、第１の実施例と同一の構成要素には同一の符号を付しその詳細な説明は省略する。本実施例の略語生成装置１０２の構成は、上述の第１の実施形態の構成（図１）に略語判定部２１を付加したものである。また、略語の判定を行うためのリソースとして、言語リソース２２を用いる。

言語リソース２２は、音声言語処理において対象とするドメインごとに登録された文書データの集合、あるいは、ＷＷＷから収集したテキストデータの集合、もしくは、略語生成部１２により生成された当該略語をクエリとして、検索エンジンにより収集されたテキストデータの集合のような、言語リソースである。また、略語生成装置をネットワークに接続することで、インターネット上に存在するすべての用語を略語を判定するために使用してもよい。

略語判定部２１は、言語リソース２２を用いて、略語生成部１２により生成された当該略語に対して、その略語が好適であるかどうかの判定を行う。判定の方法としては、例えば、略語生成部１２において生成された略語の、言語リソース２２における出現頻度や、原語１３との共起頻度、原語１３と共起する語と略語生成部において生成された略語と共起する語の頻度などを基に、当該略語の確からしさを判定する。他には、原語リソース２２における、略語の表記文字列の出現しやすさ（表記文字ｎ−ｇｒａｍ）や、略語の読みの出現しやすさ（読みｎ−ｇｒａｍ）、略語の文字数の傾向も略語の確からしさを判定する基準として用いることができる。

図８に示すフローチャートを参照して、略語生成装置１０２の動作について説明する。単語分析部１１と略語生成部１２が略語を生成するまでの処理（ステップＳ１１、Ｓ１２、Ｓ１３）は、略語生成装置１０１に関し、図２により説明した手順と同様であり、説明を省略する。

略語判定部２１は、言語リソース２２を用いて、略語生成部１２により生成された略語の判定を行い、その判定結果に基づいて略語を出力する（ステップＳ３４）。具体的には、あらかじめ用意されたデータベースである言語リソース２２において、生成された略語の出現頻度又は生成された略語と元の単語との共起頻度を基に、当該略語の確からしさを判定する。

次に、図８に示された略語生成装置１０２の具体的な動作例について説明する。図９は、その具体例を示したフローチャートであり、図１０は略語判定部２１が一時的に生成する中間データ等を記憶するテーブルの例である。

単語分析部１１と略語生成部１２が略語を生成するまでの処理（ステップＳ４１、Ｓ４２、Ｓ４３）は、略語生成装置１０１に関し、図３により説明した手順と同様であり、説明を省略する。

略語判定部２１は、言語リソース２２として例えばＷＷＷから収集したテキストデータを用いて、略語生成部１２により「着信メロディ」の略語として生成された略語「チャクメロ」「チャクメ」「チャクシン」に対して、例えば原語「着信メロディ」と生成された各略語の共起頻度を求め、図１０のような結果を得たとする。この共起頻度は、原語と生成した略語がＷＷＷにおいて共に使われやすいことを示しており、ひいては原語に対する当該略語としての一指標として用いることができる。この指標に基づいて、略語判定部２１の出力としては、例えば共起頻度が高い順に略語を出力することで、原語「着信メロディ」の略語としては「チャクメロ」が最も確からしいという結果が得られる。

なお、本実施例では共起頻度が高い順に略語を出力するとしたが、上位Ｎ個だけを出力するようにしても良いし、ある一定以上の共起頻度を持つもののみを出力するようにしても良い。また、本実施例では、生成された略語の共起頻度を求める際、生成された略語そのもの、「チャクメロ」を対象としたが、「着メロ」のような、生成された略語のモーラ列に対応する表記上の文字列を対象としてもよい。

また、図９、１０では、日本語において用いられる「着信メロディ」の略語である「着メロ」の生成手順について説明したが、本実施形態に係る略語生成装置１０２は、英語の略語についても生成することができる。例えば、略語生成装置１０２によって「Ａｂｂｒｅｖｉａｔｉｏｎ」の略語「Ａｂｂｒｅｖ」を生成するとする。略語判定部２１は、図９に示すフローチャートに従って、言語リソース２２として例えばＷＷＷから収集したテキストデータを用いて、略語生成部１２により「Ａｂｂｒｅｖｉａｔｉｏｎ」の略語として生成された略語「Ａｂｂｒｅｖ」「Ａｂｂｖｉ」「Ａｂｂａｔｉｏｎ」に対して、原語「Ａｂｂｒｅｖｉａｔｉｏｎ」と生成された各略語「Ａｂｂｒｅｖ」「Ａｂｂｖｉ」「Ａｂｂａｔｉｏｎ」の共起頻度を求める。この指標に基づいて、略語判定部２１は、例えば共起頻度が高い順に略語を出力することで、原語「Ａｂｂｒｅｖｉａｔｉｏｎ」の略語としては「Ａｂｂｒｅｖ」が最も確からしいという結果が得られる。

本第２の実施例によれば、言語リソース２２を用いて、略語生成部１２において生成された当該略語に対して、その略語が略語として好適であるかどうかの判定を行うことから、生成された略語の一般性を確保することができる。また、音声言語処理に用いる単語辞書に、本来用いられない、不要な語を登録することを防ぐことができる。

また、このような略語生成を複数回繰り返す構成も可能である。例えば「地上デジタルテレビジョン放送」の略称を生成したい場合に、一段目で「地上ディジタル放送」を生成し、更にそれを原語として二段目に「地デジ」を生成するといった構成が考えられる。このとき、それぞれの段階で用いられる単語分析部における特徴量の種類、単語分析用辞書、略語生成モデルは異なっていてもよい。なお、日本語では、「地上ディジタル放送」を示す「チジョウディジタルホウソウ」という原語を「チデジ」と略すことが一般的に行われている。

以上のような略語生成処理は、専用コンピュータ、又はパーソナルコンピュータ（ＰＣ）などのコンピュータにより実現可能である。但し、コンピュータは、物理的に単一である必要はなく、分散処理を実行する場合には、複数であってもよい。図１０に示すように、コンピュータ２００は、ＣＰＵ２０１（Central Processing Unit）、ＲＯＭ２０２（Read Only Memory）及びＲＡＭ２０３（Random Access Memory）を有し、これらがバス２０４を介して相互に接続されている。尚、コンピュータを動作させるためのＯＳソフトなどは、説明を省略するが、この情報処理装置を構築するコンピュータも当然備えているものとする。

バス２０４には又、入出力インターフェース２０５も接続されている。入出力インターフェース２０５には、例えば、キーボード、マウス、センサなどよりなる入力部２０６、ＣＲＴ、ＬＣＤなどよりなるディスプレイ、並びにヘッドフォンやスピーカなどよりなる出力部２０７、ハードディスクなどより構成される記憶部２０８、モデム、ターミナルアダプタなどより構成される通信部２０９などが接続されている。

ＣＰＵ２０１は、ＲＯＭ２０２に記憶されている各種プログラム、又は記憶部２０８からＲＡＭ２０３にロードされた各種プログラムに従って各種の処理を実行する。本実施例においては、例えば、単語分析処理や、略語生成処理を実行する。ＲＡＭ２０３にはまた、ＣＰＵ２０１が各種の処理を実行する上において必要なデータなども適宜記憶される。

通信部２０９は、例えば図示しないインターネットを介しての通信処理を行ったり、ＣＰＵ２０１から提供されたデータを送信したり、通信相手から受信したデータをＣＰＵ２０１、ＲＡＭ２０３、記憶部２０８に出力したりする。記憶部２０８はＣＰＵ２０１との間でやり取りし、情報の保存・消去を行う。通信部２０９は又、他の装置との間で、アナログ信号又はディジタル信号の通信処理を行う。

入出力インターフェース２０５は又、必要に応じてドライブ２１０が接続され、例えば、磁気ディスク２１１、光ディスク２１２、フレキシブルディスク２１３、又は半導体メモリ２１４などが適宜装着され、それらから読み出されたコンピュータプログラムが必要に応じて記憶部２０８にインストールされる。

なお、本発明は上述した実施の形態のみに限定されるものではなく、本発明の要旨を逸脱しない範囲において種々の変更が可能であることは勿論である。例えば、上述の実施例では、ハードウェアの構成として説明したが、これに限定されるものではなく、任意の処理を、ＣＰＵにコンピュータプログラムを実行させることにより実現することも可能である。この場合、コンピュータプログラムは、記録媒体に記録して提供することも可能であり、また、インターネットその他の伝送媒体を介して伝送することにより提供することも可能である。

本発明は、ある単語の表記・音韻等を組み合わせて、表記・音韻上は異なるが同じ物・事を表す別の表記を生成する略語生成装置に適用することができる。

Claims

略語を生成するための元となる原語の特徴量を分析し、その特徴量系列を抽出する単語分析部と、
あらかじめ特徴量系列を統計的にモデル化した略語生成モデルが格納された略語モデルデータベースを参照して、前記原語から抽出された前記特徴量系列に対して略語となり得るか否かのラベルを付し、このラベルに基づいて前記原語の略語を生成する略語生成部とを備え、
前記単語分析部は、前記原語を構成している文字の文字種、文字境界、形態素情報、形態素境界、モーラ、読み、及び音素のうちの一つ以上の系列、又は当該原語に含まれる単語の属性の系列、当該原語に含まれる単語間の関係の系列、当該原語を含む文の構造の系列、並びに当該原語を含む文の意味内容の系列の少なくとも一つ以上の系列を前記特徴量系列として抽出し、
前記略語生成部が参照する前記略語モデルデータベースに格納された前記略語生成モデルは、予め用意された複数のラベルモデルから学習されたものであって、
当該ラベルモデルは、原語を構成する略語構成文字のそれぞれに対して略語となり得るか否かのラベルが付与されたものであり、
前記略語構成文字は、表記上の文字、モーラ、及び読みの少なくとも１つ以上からなる略語生成装置。
前記略語生成部は、前記ラベルモデルとして条件付確率場、隠れマルコフモデル、サポートベクタマシン、及びニューラルネットワークのいずれか１つのアルゴリズムを使用する
ことを特徴とする請求項１項記載の略語生成装置。
前記生成された略語の出現頻度又は前記生成された略語と元の原語との共起頻度を基に、当該略語の確からしさを判定する判定部をさらに備える
ことを特徴とする請求項１又は２項記載の略語生成装置。
前記判定部は、あらかじめ用意されたデータベースにおける前記出現頻度又は共起頻度に基づき前記略語の確からしさを判定する
ことを特徴とする請求項３記載の略語生成装置。
ある原語の略語を生成する略語生成方法であって、
ＣＰＵが、略語を生成するための元となる原語の特徴量を分析し、その特徴量系列を抽出する単語分析工程と、
ＣＰＵが、あらかじめ特徴量系列を統計的にモデル化した略語生成モデルが格納された略語モデルデータベースを参照して、前記単語分析工程により、前記原語から抽出された前記特徴量系列に対して略語となり得るか否かのラベルを付し、このラベルに基づいて前記原語の略語を生成する略語生成工程とを有し、
前記単語分析工程では、前記原語を構成している文字の文字種、文字境界、形態素情報、形態素境界、モーラ、読み、及び音素のうちの一つ以上の系列、又は当該原語に含まれる単語の属性の系列、当該原語に含まれる単語間の関係の系列、当該原語を含む文の構造の系列、並びに当該原語を含む文の意味内容の系列の少なくとも一つ以上の系列が前記特徴量系列として抽出され、
前記略語生成工程で参照される前記略語モデルデータベースに格納された前記略語生成モデルは、予め用意された複数のラベルモデルから学習されたものであって、
当該ラベルモデルは、原語を構成する略語構成文字のそれぞれに対して略語となり得るか否かのラベルが付与されたものであり、
前記略語構成文字は、表記上の文字、モーラ、及び読みの少なくとも１つ以上からなる
略語生成方法。
前記略語生成工程では、前記ラベルモデルとして条件付確率場、隠れマルコフモデル、サポートベクタマシン、及びニューラルネットワークのいずれか１つのアルゴリズムを使用する
ことを特徴とする請求項５項記載の略語生成方法。
前記生成された略語の出現頻度又は前記生成された略語と元の原語との共起頻度を基に、当該略語の確からしさを判定する判定工程をさらに有する
ことを特徴とする請求項５又は６項記載の略語生成方法。
前記判定工程では、あらかじめ用意されたデータベースにおける前記出現頻度又は共起頻度に基づき前記略語の確からしさを判定する
ことを特徴とする請求項７記載の略語生成方法。
ある原語の略語を生成する動作をコンピュータに実行させるためのプログラムであって、
略語を生成するための元となる原語の特徴量を分析し、その特徴量系列を抽出する単語分析処理と、
あらかじめ特徴量系列を統計的にモデル化した略語生成モデルが格納された略語モデルデータベースを参照して、前記単語分析処理により、前記原語から抽出された前記特徴量系列に対して略語となり得るか否かのラベルを付し、このラベルに基づいて前記原語の略語を生成する略語生成処理と、
をコンピュータに実行させるものであり、
前記単語分析処理では、前記原語を構成している文字の文字種、文字境界、形態素情報、形態素境界、モーラ、読み、及び音素のうちの一つ以上の系列、又は当該原語に含まれる単語の属性の系列、当該原語に含まれる単語間の関係の系列、当該原語を含む文の構造の系列、並びに当該原語を含む文の意味内容の系列の少なくとも一つ以上の系列が前記特徴量系列として抽出され、
前記略語生成処理で参照される前記略語モデルデータベースに格納された前記略語生成モデルは、予め用意された複数のラベルモデルから学習されたものであって、
当該ラベルモデルは、原語を構成する略語構成文字のそれぞれに対して略語となり得るか否かのラベルが付与されたものであり、
前記略語構成文字は、表記上の文字、モーラ、及び読みの少なくとも１つ以上からなるプログラム。
前記略語生成処理では、前記ラベルモデルとして条件付確率場、隠れマルコフモデル、サポートベクタマシン、及びニューラルネットワークのいずれか１つのアルゴリズムを使用する
ことを特徴とする請求項９項記載のプログラム。
前記生成された略語の出現頻度又は前記生成された略語と元の原語との共起頻度を基に、当該略語の確からしさを判定する判定処理をさらに有する
ことを特徴とする請求項９又は１０項記載のプログラム。
前記判定処理では、あらかじめ用意されたデータベースにおける前記出現頻度又は共起頻度に基づき前記略語の確からしさを判定する
ことを特徴とする請求項１１記載のプログラム。