JP5320326B2 - 記号変換装置、記号変換方法、記号変換プログラム - Google Patents

記号変換装置、記号変換方法、記号変換プログラム Download PDF

Info

Publication number
JP5320326B2
JP5320326B2 JP2010044487A JP2010044487A JP5320326B2 JP 5320326 B2 JP5320326 B2 JP 5320326B2 JP 2010044487 A JP2010044487 A JP 2010044487A JP 2010044487 A JP2010044487 A JP 2010044487A JP 5320326 B2 JP5320326 B2 JP 5320326B2
Authority
JP
Japan
Prior art keywords
symbol
role
meaning
sentence
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2010044487A
Other languages
English (en)
Other versions
JP2011180836A (ja
Inventor
千尋 山本
克人 別所
俊郎 内山
匡 内山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2010044487A priority Critical patent/JP5320326B2/ja
Publication of JP2011180836A publication Critical patent/JP2011180836A/ja
Application granted granted Critical
Publication of JP5320326B2 publication Critical patent/JP5320326B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Description

本発明は電子文書に含まれる記号を単語に変換するための技術に関する。
キーボードからの入力を記号に変換する機能を持った入力端末から入力された文書に対し、入力された記号を、記号が表現する単語に変換する技術がある。
例えば、特許文献1に開示された変換技術によると、電子メールの文書を変換対象の文書とし、その電子メールアドレスのドメイン名に応じて、当該文書中の記号を文字列に変換する。記号は、一つの記号に一つの単語を与えた変換テーブルによって変換される。
また、特許文献2に開示された変換技術は、電子メールの文書を変換対象の文書とし、当該文書中に含まれる記号である絵文字に、複数の意味候補から絵文字の意味を表す単語を1つ選択し与えることで、文中の絵文字を文字列に変換する。記号の意味候補は、1つの記号に、記号の意味を示す複数の候補文字列を対応付けた変換用辞書によって与えられる。前記複数の意味候補の中から、対象文において、記号が表す意味を選択する方法として、複数の候補からユーザが選択する方法、複数の候補から置き換えられた頻度が高いものを選択する方法、複数の候補から自動的に1つを選択する方法のいずれかの方法で行われる。
特開2004−96454号公報 特開2003−296246号公報 特開2007−317132号公報
しかしながら、特許文献1では、記号を単語に変換する際に、一つの記号に一つの単語を与えた変換テーブルによって変換しているので、記号が意味を持たないような場合や、一つの記号が複数の意味を持ち、一文中において、記号が持つ複数の意味のいずれかを表現しているような場合に、対応できない。
特許文献2では、一つの記号が複数の意味を持っている場合に対応できるものの、複数の候補から単語を自動的に選択する方法については記載されていない。また、記号が意味を持たないような場合については考慮されていない。
また、特許文献1も特許文献2も、変換テーブルや変換用辞書の自動生成については言及しておらず、人手で構築する必要があり、多大なコストを要する。
そこで、本発明は、入力文に含まれる記号に対し記号が表現する文字列を与える際に、1つの記号が、特に意味を持たない場合や、複数の意味候補を持つ場合に、文の特徴量を用いることにより、文中における記号を、記号が表す適切な文字列に変換する。また、記号の役割に対応した語義集合を格納した語義辞書を予め備えることで、記号の文脈に即した語義の集合を効率的に得ることができる。
本発明の記号変換装置の態様としては、入力文に含まれる記号を文字列に変換する記号変換装置であって、入力文中の単語の品詞と入力文中の記号の出現位置とを成分とする特徴ベクトルである当該記号の文特徴量と、任意の文特徴量から記号の役割を特定するための分類器とに基づき、当該記号の役割を特定する役割特定手段と、前記役割特定手段によって特定された当該記号の役割に対応した語義集合を、記号の役割に対応した語義集合を格納した語義辞書から引き出し、この引き出した語義集合のうちで当該記号を語義に置換した当該入力文の文特徴と当該語義との類似度が最も大きい語義を当該記号の変換文字列と決定する変換文字列選択手段と、学習用のテキスト集合に含まれるテキスト文書における記号と共起する語を用いて当該記号の役割に対応した語義の集合を抽出することにより前記語義辞書を生成する語義辞書生成手段と、前記テキスト集合に含まれるテキスト文書中の単語の品詞と当該文書中の記号の出現位置とを成分とする特徴ベクトルである当該記号の文特徴量を算出し、この算出した文特徴量と当該記号の役割との対応関係を学習することにより前記分類器を作成する分類器生成手段とを備え、前記分類器生成手段は前記記号の文特徴の成分として前記語義辞書中の前記テキスト文書における記号の語義と当該テキスト文書中の語との意味的な類似度を加えた特徴量を算出し、この算出した文特徴量と当該記号の他の役割との対応関係を学習することにより、前記役割特定手段に供される他の分類器を作成する。
本発明の記号変換方法の態様としては、入力文に含まれる記号を文字列に変換する記号変換方法であって、役割特定手段が、入力文中の単語の品詞と入力文中の記号の出現位置とを成分とする特徴ベクトルである当該記号の文特徴量と、任意の文特徴量から記号の役割を特定するための分類器とに基づき、当該記号の役割を特定するステップと、変換文字列選択手段が、前記役割特定手段によって特定された当該記号の役割に対応した語義集合を、記号の役割に対応した語義集合を格納した語義辞書から引き出し、この引き出した語義集合のうちで当該記号を語義に置換した当該入力文の文特徴と当該語義との類似度が最も大きい語義を当該記号の変換文字列と決定するステップと、語義辞書生成手段が、学習用のテキスト集合に含まれるテキスト文書における記号と共起する語を用いて当該記号の役割に対応した語義の集合を抽出することにより前記語義辞書を生成するステップと、分類器生成手段が、前記テキスト集合に含まれるテキスト文書中の単語の品詞と当該文書中の記号の出現位置とを成分とする当該記号の文特徴量を算出し、この算出した文特徴量と当該記号の役割との対応関係を学習することにより前記分類器を作成するステップと、前記分類器生成手段が、前記記号の文特徴の成分として前記語義辞書中の前記テキスト文書における記号の語義と当該テキスト文書中の語との意味的な類似度を加えた特徴量を算出し、この算出した文特徴量と当該記号の他の役割と対応関係を学習することにより、前記役割を特定するステップに供される他の分類器を作成するステップとを有する
上記のように、前記テキスト集合に含まれるテキスト文書中の単語の品詞と当該文書中の記号の出現位置とを成分とする特徴ベクトルである当該記号の文特徴量を算出し、この算出した文特徴量と当該記号の役割との対応関係を学習することにより作成された分類器は、記号の役割として内容語を特定するのに有効である。
また、前記記号の文特徴の成分として前記語義辞書中の前記テキスト文書における記号の語義と当該テキスト文書中の語との意味的な類似度を加えた特徴量を算出し、この算出した文特徴量と当該記号の他の役割との対応関係を学習することにより作成された前記他の分類器は、記号の役割として内容添加、装飾、モダリティのいずれかを特定するに有効である。
尚、本発明は上記の記号変換装置を構成する各手段としてコンピュータを機能させる記号変換プログラムの態様とすることもできる。
以上の発明によれば入力文中の記号について当該入力文の文脈に即した文字列を取得できると共に記号を文字列に変換するための辞書の作成コストの削減が実現する。
発明の実施形態に係る記号変換装置のブロック構成図。 語義辞書生成手段による内容語語義辞書の作成手順を説明したチャート図。 語義辞書生成手段によるモダリティ語義辞書の作成手順を説明したチャート図。 役割分類モデル生成手段の動作例を説明したチャート図。 役割分類モデル生成手段による内容語役割分類モデルの作成手順を説明したチャート図。 役割分類モデル生成手段による内容添加役割分類モデルの作成手順を説明したチャート図。 役割分類モデル生成手段による装飾・モダリティ役割分類モデルの作成手順を説明したチャート図。 役割特定手段の動作例を説明したフローチャート図。 変換文字列選択手段の動作例を説明したフローチャート図。 役割特定手段による内容語語義の特定手順を説明したチャート図。 役割特定手段によるモダリティ語義の特定手順を説明したチャート図。 テキスト集合の一例を説明した図。 記号一覧の一例を説明した図。 内容語語義辞書の一例を説明した図。 モダリティ語義辞書の一例を説明した図。 記号及びこれを含んだ文書の一例を示した図。 発明の実施形態に係る記号変換装置を実装するハードウェア構成図。
以下、本発明の実施の形態について図面を参照しながら説明する。
[概要]
図1に示された発明の実施形態に係る記号変換装置1は入力された電子文書に含まれる一つの記号が特に意味を有しない場合や複数の意味候補を有する場合に当該記号の文特徴量に対応した役割情報に基づき当該記号を適切な文字列に変換する。
本実施形態で扱われる記号は記号一覧15として定められたものを記号とする。記号は図13に例示の記号一覧15のような例えば携帯端末から入力可能な絵文字が挙げられる。
記号の役割については、予め定めたn種類の役割に限定するものとする。ここでは、例えば、以下の4つの役割であるとする。
(1)図16(a)に例示された文書のように記号が内容語(名詞、動詞、形容詞の単語)の代わりとして用いられ、文中において内容語としての役割を果たす「内容語」としての役割。
(2)図16(b)に例示された文書のように記号が文中の内容語の繰り返しとして用いられる「内容添加」としての役割。
(3)図16(c)に例示された文書のように記号が本文の内容語に関係なく単なる飾りとして用いられる「装飾」としての役割。
(4)図16(d)に例示された文書のように記号が本文の内容に対して何かしらの感情表現を付加するために用いられる「モダリティ」としての役割。
記号は、役割によって変換の必要の有無があり、内容語、モダリティの役割の場合は、記号が文中において意味を持っているため変換の必要があるが、装飾、内容添加の場合は、記号が文中において意味を持っていないため変換の必要がないとする。
[記号変換装置1の構成]
記号変換装置1は図17に示されたCPU51、RAM52、ROM53、ハードディスクドライブ装置54、I/F(入出力デバイス)55等のハードウェアリソースを備える。このハードウェアリソースがソフトウェアリソース(OS、アプリケーション等)と協働することより図1に示された記号変換装置1を構成する語義辞書生成手段11、役割分類モデル生成手段12、役割特定手段13、変換文字列選択手段14とが実装される。
記号変換装置1を構成する各機能手段11〜14について説明する。
語義辞書生成手段11は、学習用のテキスト集合16に含まれるテキスト文書における記号一覧15の記号と共起する語を用いて当該記号の語義の集合を抽出することで語義辞書17を生成する。語義とは記号が内容語、モダリティの役割をなすときの語義辞書17にて定義される当該記号の意味をなす語である。テキスト集合16のテキスト文書には例えば図12に示したように識別子(ID)と当該文書に含まれる記号の役割を示す役割情報が付されている。図12に示された事例では内容語、内容添加、装飾、モダリティの4つの役割が設定されているが、役割の個数や定義はこの事例に限定されることなく変更が可能である。語義辞書17には図14,15にそれぞれ例示された内容語義辞書25,モダリティ語義辞書33がある。
役割分類モデル生成手段12は、テキスト集合16に含まれるテキスト文書中の記号毎に当該文書中の単語の品詞と当該記号の出現位置とを成分とする特徴ベクトルである文特徴量を学習して、文特徴量から記号の役割を特定するための役割分類モデル18を作成する。
役割分類モデル18には図4を参照して説明される後述の内容語役割分類モデル47、内容添加役割分類モデル48、装飾・モダリティ役割分類モデル49がある。
内容語役割分類モデル47は記号の文特徴量から当該記号の役割として内容語を特定するための分類器である。当該分類器は記号を含む文書内の記号の前後の品詞情報と当該記号の出現位置とを成分とする特徴ベクトルである当該記号の文特徴と記号の役割との対応関係を学習して得られたものである。
内容添加役割分類モデル48は、記号の文特徴量から当該記号の役割として内容添加の役割としての内容語を特定するための分類器である。当該分類器は、記号を含む文書内の当該記号の前後の品詞情報と当該記号の出現位置と内容語語義辞書25中の当該記号の語義と当該文書中の内容語との意味的な類似度とを成分とする特徴ベクトルである当該記号の文特徴量と記号の役割との対応関係を学習して得られたものである。
装飾・モダリティ役割分類モデル49は、記号の文特徴量から当該記号の役割として装飾、モダリティの役割として内容語を特定するための分類器である。当該分類器は、記号を含む文書内の当該記号の前後の品詞情報と当該記号の出現位置とモダリティ語義辞書33中の当該記号の語義と当該文書中の内容語との意味的な類似度とを成分とする特徴ベクトルである当該記号の文特徴量と記号の役割との対応関係を学習して得られたものである。
役割特定手段13は、入力文19中の単語の品詞と入力文19中の記号の出現位置とまたはさらに語義辞書17中の当該記号の語義と当該文中の内容語との意味的な類似度を成分とする当該記号の文特徴量と、役割分類モデル18とに基づき該記号の役割を特定する。
変換文字列選択手段14は、入力文19中の記号に対し、役割特定手段13によって特定された当該記号の役割に基づき、語義辞書17中の該記号の語義へ該記号を置換したときの該入力文と、該語義との類似度が最も大きい語義を変換文字列20と決定する。
[記号変換装置1の動作例]
記号変換装置1は、予め作成された語義辞書17、役割分類モデル18を用いて、入力文19に含まれる記号を適切な変換文字列20に変換する。
[1]語義辞書生成手段11による語義辞書17(内容語語義辞書25,モダリティ語義辞書33)の作成
記号の表す文字列は、役割によって性質が異なるとする。例えば、内容語の役割のときの図16(e)に例示された「記号」は{太陽、夏、朝、晴れ}などの「内容語」の意味を有するものである。モダリティの役割のときの同「記号」は{楽しい、嬉しい、美味しい}などの「モダリティ」の意味を有するものである。そのため、役割によって語義辞書を用意する。ここでは、内容語は内容語語義辞書25に格納され、モダリティはモダリティ語義辞書33に格納される。語義辞書生成手段11は内容語語義辞書25及びモダリティ語義辞書33の作成を行う。
図2を参照しながら語義辞書生成手段11による内容語語義辞書の作成手順(S21〜S24)について説明する。ここでは図16(b)に例示された文書のように記号が当該文書中の内容語の繰り返しとして用いられる内容添加の役割の性質から、当該記号と共起する内容語を用いて、記号の内容語としての役割における語義の抽出を行う。
S21:学習用のテキスト集合16に含まれるテキスト文書の中の記号毎に(同一の記号が同一テキスト文書に重複して用いられている場合であっても記号毎に)、当該記号と共起する内容語を抽出する。
S22:前記記号毎に、S21で抽出された複数の内容語の中でも、類似しているものを集合にするため、クラスタリングを行う。クラスタリングを行うにあたり、特許文献3に開示された概念ベクトル推定方法で生成される概念ベクトル集合を用い、各内容語の概念ベクトルを算出し、ウォード法によってクラスタリングを行う。
S23:前記記号毎に、S22で抽出された内容語の集合から内容語語義として信頼度が高いものを得るために、特許文献3の手法で生成される当該記号のベクトルと当該集合の重心ベクトルの距離が閾値以内のものを当該記号の語義を表す語集合であるとして抽出する。
S24:前記記号毎に、S23で抽出された語集合の中から内容語語義として信頼度が高いものを得るために、当該語集合に含まれる各語の当該記号との文中での共起回数の平均が閾値以上のものを、当該記号の語義を表す語集合として抽出する。この抽出された語集合が内容語語義辞書25である。内容語語義辞書25は記号変換装置1の記憶部(ハードディスクドライブ装置54)に保存される。図14に内容語語義辞書25の一例を示した。
図3を参照しながら語義辞書生成手段11によって実行されるモダリティ語義辞書の作成手順S31〜S32について説明する。ここでは図16(f)に例示された文書のような、記号と共起する感性語(形容詞)から、記号のモダリティとしての役割における語義の抽出を行う。
S31:記号一覧15の記号毎にテキスト集合16のテキスト文書の中で当該記号と共起する感性語を抽出する。
S32:前記記号毎に、当該記号と文中で一定数以上共起する感性語を、当該記号のモダリティ語義を表す語として抽出する。この抽出された語集合がモダリティ語義辞書33である。モダリティ語義辞書33は記号変換装置1の記憶部(ハードディスクドライブ装置54)に保存される。図15にモダリティ語義辞書33の一例を示す。
[2]役割分類モデル生成手段12による役割分類モデル18(内容語役割分類モデル47,内容添加役割分類モデル48,装飾・モダリティ役割分類モデル49)の作成
役割分類モデル生成手段12は、文中の各記号に対し4つの役割のいずれかが付与されたテキスト集合16のデータを用いて学習を行うことにより、4つの役割(内容語,内容添加,装飾,モダリティ)のそれぞれについて分類を行うための分類器を生成する。この分類器は、4つの役割の一つ一つに対応して生成する。先ず、内容語とそれ以外を識別するもの、次に、内容添加とそれ以外を識別するもの、その次に、装飾とモダリティを識別するものの順に生成する。
学習の際は、各分類において分類を最も適切に行える記号に対する文特徴量を抽出し、学習を行う。分類器の生成の際は、既に分類済みの役割が付与された記号に関する学習データは用いない。本実施形態では学習の手法として、SVM(Support Vector Machine)の手法が適用される。
図4を参照しながら役割分類モデル生成手段12による役割分類モデルの作成手順S41〜S46について説明する。
S41:学習のために取得したテキスト集合16の形態素解析を行う。
S42:内容語を分類するための分類器である内容語役割分類モデル47を生成する。
図5を参照しながらステップS42における内容語役割分類モデル47を生成する具体的な手順S51,S52について説明する。
内容語の役割は、例えば図16(a)に示された「文書」のように、文書に含まれる「記号」が内容語(例えばビール)の代わりとして用いられ、当該文書において内容語としての役割を果たすものであるので、当該「記号」の前後の品詞情報に特徴がある。そこで、学習対象の記号に対しては、当該記号を含む文書内の記号の前後の品詞情報と当該記号の出現位置とを成分とする特徴ベクトルで示される当該記号の文特徴を学習することにより内容語役割分類モデル47を生成する。
(S51)ステップS41によるテキスト集合16の全文書の形態素解析結果から得られた記号毎に、当該記号を含む文書内の当該記号の前後の品詞情報と当該記号の出現位置とを成分とする特徴ベクトルを当該記号の文特徴量として抽出する。
(S52)ステップS51で抽出された記号の文特徴量と、記号の役割との対応関係を、SVM法によって学習することで、任意の文特徴量から記号が内容語の役割を意味するものかまたはその他の役割を意味するものかを特定するための分類器を生成する。この生成された分類器が内容語役割分類モデル47である。内容語役割分類モデル47は記号変換装置1の記憶部(ハードディスクドライブ装置54)に保存される。
S43:ステップS42で内容語役割分類モデル47が生成されたので、内容語の役割が付与された記号に関する学習データを削除する。
S44:内容添加を分類するための分類器である内容添加役割分類モデル48を生成する。
図6を参照しながらステップS44における内容添加役割分類モデル48を生成する具体的な手順S61,S62について説明する。
内容添加の役割は、例えば図16(b)に示された「文書」のように記号が文中の内容語の繰り返しとして用いられるので、文中の内容語のいずれかと、内容語語義辞書25中の語義との意味的な類似度が非常に大きくなる。そこで、学習対象の記号に対しては、当該記号を含む文書内の当該記号の前後の品詞情報と当該記号の出現位置と内容語語義辞書25中の当該記号の語義と当該文書中の内容語との意味的な類似度とを成分とする特徴ベクトルを当該記号の文特徴量として抽出する。この記号の文特徴量を学習することにより内容添加役割分類モデル48を生成する。
(S61)ステップS41によるテキスト集合16の全文書の形態素解析結果から得られた記号毎に、当該記号を含む文書内の当該記号の前後の品詞情報と当該記号の出現位置とを成分とする特徴ベクトルを当該記号の文特徴量として抽出する。また、内容語語義辞書25中の当該記号の語義の各々と前記文書の内容語各々との意味的な類似度の最大値を、前記決定された記号の文特徴量の成分として追加する。単語間の意味的な類似度は、特許文献3の手法で生成される概念ベクトル集合を用い、単語それぞれの概念ベクトルの間の内積によって算出できる。
(S62)ステップS61で抽出された記号の文特徴量と、記号の役割との対応関係を、SVM法によって学習することで、任意の文特徴量から記号が内容添加の役割を意味するものかまたはその他の役割を意味するものかを特定するための分類器を生成する。この生成された分類器が内容添加役割分類モデル48である。内容添加役割分類モデル48は記号変換装置1の記憶部(ハードディスクドライブ装置54)に保存される。
S45:ステップS44で内容添加役割分類モデル48が生成されたので、内容添加の役割が付与された記号に関する学習データを削除する。
S46:装飾とモダリティを分類するための分類器である装飾・モダリティ役割分類モデル49を生成する。
図7を参照しながらステップS46における装飾・モダリティ役割分類モデル49を生成する具体的な手順S71,S72について説明する。
装飾の役割は、図16(c)に例示された「文書」のように記号が本文の内容語に関係なく単なる飾りとして用いられるので、記号が文の両端に来る場合や、冒頭、末尾に来るという特徴がある。また、モダリティの役割は、図16(d)に例示した「文書」のように、記号が本文の内容に対して何かしらの感情表現を付加するために用いられるので、文中の内容語のいずれかと、モダリティ語義辞書33中の語義との意味的な類似度が大きくなるという特徴がある。そこで、学習対象の記号については、当該記号を含む文書内の当該記号の前後の品詞情報と、当該記号の出現位置と、当該文書中の同一記号の出現位置と、モダリティ語義辞書33中の当該記号の語義と当該文書中の内容語との意味的な類似度とを成分とする特徴ベクトルを当該記号の文特徴量として抽出する。そして、この文特徴を学習することにより装飾・モダリティ役割分類モデル49を生成する。
(S71)ステップS41によるテキスト集合16の全文書の形態素解析結果から得られた記号毎に、当該記号を含む文書内の当該記号の前後の品詞情報と、当該記号の出現位置と、当該文書中の同一記号の出現位置とを成分とする特徴ベクトルを当該記号の文特徴量として抽出する。また、モダリティ語義辞書33中の当該記号の語義の各々と当該文書中の内容語各々との意味的な類似度の最大値を、前記決定された記号の文特徴量の成分として追加する。単語間の意味的な類似度は、特許文献3の手法で生成される概念ベクトル集合を用い、単語それぞれの概念ベクトルの間の内積によって算出できる。
(S72)ステップS71で抽出された記号の文特徴量と、記号の役割との対応関係を、SVM法によって学習することで、任意の文特徴量から記号が装飾の役割か、モダリティの役割かを特定するための分類器を生成する。この生成された分類器が装飾・モダリティ役割分類モデル49である。装飾・モダリティ役割分類モデル49は記号変換装置1の記憶部(ハードディスクドライブ装置54)に保存される。
以上のS41〜46の学習処理は学習対象であるテキスト集合16の全ての文書に含まれる記号について実行される。
尚、上記の事例では分類モデル47,48,49はそれぞれステップS42,S44,S46で作成されているが、単一のステップすなわちステップS42で内容語義辞書25、モデリティ語義辞書33を用いて内容語・内容添加・装飾・モダリティ役割分類モデルを作成するようにしてもよい。
[3]入力文19に含まれる記号の変換文字列20への変換
入力文19に含まれる記号の文字列への変換の手順は、役割特定手段13が当該記号の役割を特定する手順と、変換文字列選択手段14が前記特定された記号の役割と語義辞書17とに基づき当該記号を変換文字列20に変換する手順とからなる。
(3−1)記号の役割を特定する手順
図8を参照しながら記号の役割の特定手順S81〜S90について説明する。
役割特定手段13は、入力文19を受けると、役割分類モデル生成手段12で生成された3つの分類モデルを用いて、入力文19に含まれる一記号の役割を特定する。具体的には、入力文19中の一記号の文特徴量を抽出し、内容語役割分類モデル47、内容添加役割分類モデル48、装飾・モダリティ役割分類モデル49の順で各分類モデルを用いて当該文特量に基づき当該記号の役割を特定する。具体的な特定手順を以下に説明する。
S81:入力文19の形態素解析を行う。
S82:内容語の分類における文特徴量の抽出を行うため、S81の形態素解析によって得られた入力文19中の一記号の文特徴量を抽出する。文特徴の抽出には前述のステップS51と同様の方法が適用される。
S83:ステップS82で抽出された文特徴量に基づき内容語役割分類モデル47から当該記号の役割を特定する。
S84:ステップS83で特定された当該記号の役割が内容語である場合(Yes)、役割を抽出するステップS90に移行し、当該記号の役割を内容語役割分類モデル47から内容語と特定する。一方、前記特定された記号の役割が内容語でない場合(No)、ステップS85での内容添加の分類における文特徴量の抽出に進む。
S85:内容添加の分類における文特徴量の抽出を行うため、当該記号の文特徴量を抽出する。文特徴の抽出には前述のステップS61と同様の方法が適用される。
S86:ステップS85で抽出された文特徴量に基づき内容添加役割分類モデル48から当該記号の役割を特定する。
S87:ステップS86で特定された当該記号の役割が内容添加である場合(Yes)、役割を抽出するS90に移行して、当該記号の役割を内容添加役割分類モデル48から内容添加と特定する。一方、前記特定された記号の役割が内容添加でない場合(No)、装飾・モダリティの分類における文特徴量の抽出に進む。
S88:装飾・モダリティの分類における文特徴量の抽出を行うため、当該記号の文特徴量を抽出する。文特徴の抽出には前述のステップS71と同様の方法が適用される。
S89:ステップS88で抽出された文特徴量に基づき装飾・モダリティ役割分類モデル49から当該記号の役割を特定する。その後、役割を抽出するステップS90に移行する。
S90:ステップS83,86,89のいずれかで特定された当該記号の役割を各々の分類モデル47,48,49から抽出する。すなわち、S83で特定された当該記号の役割としての内容語を内容語役割分類モデル47から引き出す。S86で特定された当該記号の役割としての内容添加を内容添加役割分類モデル48から引き出す。S89で特定された当該記号の役割としての装飾・モダリティを装飾・モダリティ役割分類モデル49から引き出す。
(3−2)記号を変換文字列20に変換する手順
変換文字列選択手段14は、入力文19中の対象としている一記号に対し、役割特定手段13によって特定された役割に基づき語義辞書17(内容語義辞書25,モダリティ語義辞書33)から変換文字列20を抽出することで当該記号の文字列への変換を行う。
図9を参照しながら記号の文字列への変換手順S91〜S96について説明する。
S91:入力文19とこの入力文中の一記号のステップS90で役割特定手段13によって抽出された役割を取得する。
S92:ステップS91で取得した記号の役割が内容語の役割であった場合(Yes)、ステップS93に移行する。一方、内容語の役割でなかった場合(No)、ステップS94に移行する。
S93:前記取得された記号の内容語語義の特定を行う。
図10を参照しながらステップS93における内容語語義を特定する具体的な手順S101,S102について事例に基づき説明する。
(S101)入力文19の対象としている一記号に対して内容語語義辞書25中の当該記号の語義のそれぞれを代入した場合の入力文19の特徴を抽出し、これを文特徴104とする。例えば、入力文19が、図16(g)に例示された文書であったとする。図14に示された内容語語義辞書25から、図16(e)に示した記号部の語義集合は(語義a:太陽,語義b:夏,語義c:朝,…)である。次に、同記号部に当該記号の語義それぞれを代入した場合の、入力文{文A(語義a):「午後には太陽がでるよ」,文B(語義b):「午後には夏がでるよ」,文C(語義c):「午後には朝がでるよ」,…}の特徴である文特徴(文Aの文特徴=A’,文Bの文特徴=B’,文Cの文特徴=C’,…)を算出する。文特徴は、特許文献3の手法で生成される概念ベクトル集合を用い、入力文19中の各単語の概念ベクトルを算出し、これらの概念ベクトルの重心を入力文の特徴ベクトルとする。重心の算出は以下の式(1)による演算によって行う。
Figure 0005320326
(S102)当該記号の各語義の概念ベクトルで定義された各語義の特徴(特徴[語義a:太陽],特徴[語義b:夏],特徴[語義c:楽しい],…)と、ステップS101で抽出した該語義それぞれを代入した場合の入力文の文特徴103(文Aの文特徴=A’,文Bの文特徴=B’,文Cの文特徴=C’,…)とを、語義毎に比較し、最も類似度の高い文特徴を持った語義を、変換文字列と決定する。例えば、語義aについては、語義aの特徴である概念ベクトルと、語義aを入力文に代入した文Aの文特徴A’とを比較する。
S94:ステップS91で該記号の役割がモダリティの役割であった場合(Yes)、ステップS95に移行する。モダリティの役割でなかった場合は、当該記号の役割は内容添加、あるいは、装飾であるため、語義は”無し”として特定して、ステップS96に移行する。
S95:当該記号のモダリティ語義の特定を行う。
図11を参照しながらステップS95におけるモリダリティ語義を特定する具体的な手順S111,S112について事例に基づき説明する。モダリティ語義の特定は、内容語語義の特定手順(S101,S102)と同じ方法で行われる。このとき、辞書はモダリティ語義辞書33を用いる。
(S111)入力文19の対象としている一記号に対してモダリティ語義辞書33中の当該記号の語義のそれぞれを代入した場合の入力文19の特徴を抽出し、これを文特徴113とする。
(S112)当該記号の各語義の概念ベクトルで定義された各語義の特徴と、ステップS111で抽出した該語義をそれぞれ代入した場合の入力文19の文特徴113とを、語義毎に比較し、最も類似度の高い文特徴を持った語義を、変換文字列20と決定する。
S96:当該記号を、ステップS93,S94,S95のいずれかで特定された語義に変換する。この語義が当該記号の変換文字列20として出力される。変換文字列20は記号変換装置1のI/F(入出力デバイス)55を介して出力表示される。
[本実施形態の効果]
以上の記号変換装置1によれば、テキスト集合において、文中で記号と共起する語を用いるので、文中の記号について、文脈に即した語義の集合を取得できる。
また、記号の役割に対応した語義集合を格納した語義辞書を予め作成することで、記号の文脈に即した語義の集合が得られ、記号を文字列に変換するための辞書の作成コストの削減が実現する。
さらに、記号が出現するテキスト集合から獲得した文特徴量と記号の役割の関係性に基づき生成された記号の役割を特定するための分類器(内容語役割分類モデル47,内容添加役割分類モデル48,装飾・モダリティ役割分類モデル49)に基づき役割の特定を行う。これにより、文中の記号について、文脈に即した役割を特定することができる。例えば、記号の役割として、内容語、内容添加、装飾、モダリティ等を特定できる。
また、記号の役割を特定した後に、変換文字列を決定することで、記号の役割が、変換すべき意味を持つ役割か、そうでない役割かを判別することができる。したがって、文中の記号について、変換すべき役割の記号のみを対応する文字列に変換し、そうでない記号を削除することができる。
[本発明のプログラムとしての態様]
本発明は、専用のハードウェアにより実現されるもの以外に、上述の記号変換装置1を構成する機能手段11〜18としてコンピュータを機能させる記号変換プログラムの態様とすることもできる。また、このプログラムを格納したコンピュータ読み取り可能な記録媒体も本発明の一態様となる。記録媒体としては、フレキシブルディスク、光磁気ディスク、CD−ROM、DVD−ROMに例示されるような、図17に示されたCPU51が記録媒体読取装置56を介して読み取り可能な周知の記録媒体57が挙げられる。または、コンピュータシステムに内蔵されるハードディスクドライブ装置54等の記憶装置が例示される。さらに、記録媒体としては、通信回線を介してプログラムを送信する場合のように、短時間の間、動的にプログラムを保持するもの(伝送媒体もしくは伝送波)、その場合のサーバとなるコンピュータシステム内部の揮発性メモリのように一定時間プログラムを保持しているものも含まれる。
尚、本発明は、以上の実施の形態に限定されることなく、明細書及び特許請求の範囲内において種々変更・応用が可能である。例えば、記号が用いられている言語の言語処理技術に適用可能である。
1…記号変換装置
11…語義辞書生成手段
12…役割分類モデル生成手段(分類器生成手段)
13…役割特定手段
14…変換文字列選択手段
17…語義辞書
18…役割分類モデル(分類器)

Claims (5)

  1. 入力文に含まれる記号を文字列に変換する記号変換装置であって、
    入力文中の単語の品詞と入力文中の記号の出現位置とを成分とする特徴ベクトルである当該記号の文特徴量と、任意の文特徴量から記号の役割を特定するための分類器とに基づき、当該記号の役割を特定する役割特定手段と、
    前記役割特定手段によって特定された当該記号の役割に対応した語義集合を、記号の役割に対応した語義集合を格納した語義辞書から引き出し、この引き出した語義集合のうちで当該記号を語義に置換した当該入力文の文特徴と当該語義との類似度が最も大きい語義を当該記号の変換文字列と決定する変換文字列選択手段と、
    学習用のテキスト集合に含まれるテキスト文書における記号と共起する語を用いて当該記号の役割に対応した語義の集合を抽出することにより前記語義辞書を生成する語義辞書生成手段と、
    前記テキスト集合に含まれるテキスト文書中の単語の品詞と当該文書中の記号の出現位置とを成分とする特徴ベクトルである当該記号の文特徴量を算出し、この算出した文特徴量と当該記号の役割との対応関係を学習することにより前記分類器を作成する分類器生成手段
    を備え、
    前記分類器生成手段は前記記号の文特徴の成分として前記語義辞書中の前記テキスト文書における記号の語義と当該テキスト文書中の語との意味的な類似度を加えた特徴量を算出し、この算出した文特徴量と当該記号の他の役割との対応関係を学習することにより、前記役割特定手段に供される他の分類器を作成すること
    を特徴とする記号変換装置。
  2. 前記役割特定手段は入力文中の記号の文特徴量と前記他の分類器とに基づき当該記号の役割として内容添加、装飾、モダリティのいずれかを特定すること
    を特徴とする請求項に記載の記号変換装置。
  3. 入力文に含まれる記号を文字列に変換する記号変換方法であって、
    役割特定手段が、入力文中の単語の品詞と入力文中の記号の出現位置とを成分とする特徴ベクトルである当該記号の文特徴量と、任意の文特徴量から記号の役割を特定するための分類器とに基づき、当該記号の役割を特定するステップと、
    変換文字列選択手段が、前記役割特定手段によって特定された当該記号の役割に対応した語義集合を、記号の役割に対応した語義集合を格納した語義辞書から引き出し、この引き出した語義集合のうちで当該記号を語義に置換した当該入力文の文特徴と当該語義との類似度が最も大きい語義を当該記号の変換文字列と決定するステップと、
    語義辞書生成手段が、学習用のテキスト集合に含まれるテキスト文書における記号と共起する語を用いて当該記号の役割に対応した語義の集合を抽出することにより前記語義辞書を生成するステップと、
    分類器生成手段が、前記テキスト集合に含まれるテキスト文書中の単語の品詞と当該文書中の記号の出現位置とを成分とする当該記号の文特徴量を算出し、この算出した文特徴量と当該記号の役割との対応関係を学習することにより前記分類器を作成するステップと、
    前記分類器生成手段が、前記記号の文特徴の成分として前記語義辞書中の前記テキスト文書における記号の語義と当該テキスト文書中の語との意味的な類似度を加えた特徴量を算出し、この算出した文特徴量と当該記号の他の役割と対応関係を学習することにより、前記役割を特定するステップに供される他の分類器を作成するステップ
    を有すること
    を特徴とする記号変換方法。
  4. 前記役割を特定するステップにおいては、入力文中の記号の文特徴量と前記他の分類器とに基づき当該記号の役割として内容添加、装飾、モダリティのいずれかを特定すること
    を特徴とする請求項3に記載の記号変換方法。
  5. 請求項1または2に記載の記号変換装置を構成する各手段としてコンピュータを機能させることを特徴とする記号変換プログラム。
JP2010044487A 2010-03-01 2010-03-01 記号変換装置、記号変換方法、記号変換プログラム Expired - Fee Related JP5320326B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2010044487A JP5320326B2 (ja) 2010-03-01 2010-03-01 記号変換装置、記号変換方法、記号変換プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010044487A JP5320326B2 (ja) 2010-03-01 2010-03-01 記号変換装置、記号変換方法、記号変換プログラム

Publications (2)

Publication Number Publication Date
JP2011180836A JP2011180836A (ja) 2011-09-15
JP5320326B2 true JP5320326B2 (ja) 2013-10-23

Family

ID=44692276

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010044487A Expired - Fee Related JP5320326B2 (ja) 2010-03-01 2010-03-01 記号変換装置、記号変換方法、記号変換プログラム

Country Status (1)

Country Link
JP (1) JP5320326B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6124489B1 (ja) * 2016-08-01 2017-05-10 ヤフー株式会社 クエリ提供装置、クエリ提供方法、およびクエリ提供プログラム
CN110362684B (zh) * 2019-06-27 2022-10-25 腾讯科技(深圳)有限公司 一种文本分类方法、装置及计算机设备

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008203984A (ja) * 2007-02-16 2008-09-04 Nec Corp 文字列変換装置及び文字列変換方法
WO2008114453A1 (ja) * 2007-03-20 2008-09-25 Fujitsu Limited 音声合成装置、音声合成システム、言語処理装置、音声合成方法及びコンピュータプログラム

Also Published As

Publication number Publication date
JP2011180836A (ja) 2011-09-15

Similar Documents

Publication Publication Date Title
US10713571B2 (en) Displaying quality of question being asked a question answering system
US9224155B2 (en) Systems and methods for managing publication of online advertisements
CN109844742B (zh) 分析系统
Donato et al. Investigating redundancy in emoji use: Study on a twitter based corpus
KR101751113B1 (ko) 기억 능력을 이용하는 다중 사용자 기반의 대화 관리 방법 및 이를 수행하는 장치
KR101326354B1 (ko) 문자 변환 처리 장치, 기록 매체 및 방법
JP5403696B2 (ja) 言語モデル生成装置、その方法及びそのプログラム
CN111414561B (zh) 用于呈现信息的方法和装置
US9262400B2 (en) Non-transitory computer readable medium and information processing apparatus and method for classifying multilingual documents
Mukund et al. A vector space model for subjectivity classification in Urdu aided by co-training
Shyamasundar et al. Twitter sentiment analysis with different feature extractors and dimensionality reduction using supervised learning algorithms
CN115114919A (zh) 呈现提示信息的方法和装置以及存储介质
Ali et al. Sentiment summerization and analysis of Sindhi text
JP6433937B2 (ja) キーワード評価装置、類似度評価装置、検索装置、評価方法、検索方法、及びプログラム
JP5320326B2 (ja) 記号変換装置、記号変換方法、記号変換プログラム
JP4054046B2 (ja) 意見性判定データベース作成方法及び装置及びプログラム及び意見性判定方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体
JP2019159696A (ja) 検索装置および方法
JP6495124B2 (ja) 用語意味コード判定装置、用語意味コード判定モデル学習装置、方法、及びプログラム
JP4478042B2 (ja) 頻度情報付き単語集合生成方法、プログラムおよびプログラム記憶媒体、ならびに、頻度情報付き単語集合生成装置、テキスト索引語作成装置、全文検索装置およびテキスト分類装置
JP3471253B2 (ja) 文書分類方法、文書分類装置、および文書分類プログラムを記録した記録媒体
JP5506482B2 (ja) 固有表現抽出装置、文字列−固有表現クラス対データベース作成装置、固有表現抽出方法、文字列−固有表現クラス対データベース作成方法、プログラム
JP5744150B2 (ja) 発話生成装置、方法、及びプログラム
JP5398638B2 (ja) 記号入力支援装置、記号入力支援方法、及びプログラム
JP2008282328A (ja) テキスト分類装置、テキスト分類方法及びテキスト分類プログラム並びにそのプログラムを記録した記録媒体
JP5527504B2 (ja) 語句抽出ルール生成装置、語句抽出システム、語句抽出ルール生成方法、及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20120131

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130319

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130520

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130709

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130712

R150 Certificate of patent or registration of utility model

Ref document number: 5320326

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees