JP5320269B2 - 記号変換方法、記号変換装置、記号変換プログラム - Google Patents

記号変換方法、記号変換装置、記号変換プログラム Download PDF

Info

Publication number
JP5320269B2
JP5320269B2 JP2009262190A JP2009262190A JP5320269B2 JP 5320269 B2 JP5320269 B2 JP 5320269B2 JP 2009262190 A JP2009262190 A JP 2009262190A JP 2009262190 A JP2009262190 A JP 2009262190A JP 5320269 B2 JP5320269 B2 JP 5320269B2
Authority
JP
Japan
Prior art keywords
character string
symbol
input sentence
conversion
appearance form
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2009262190A
Other languages
English (en)
Other versions
JP2011107974A (ja
Inventor
千尋 山本
克人 別所
俊郎 内山
匡 内山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2009262190A priority Critical patent/JP5320269B2/ja
Publication of JP2011107974A publication Critical patent/JP2011107974A/ja
Application granted granted Critical
Publication of JP5320269B2 publication Critical patent/JP5320269B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Document Processing Apparatus (AREA)

Description

本発明は記号を当該記号の意味を示す文字列に変換するための技術に関する。
キーボードからの入力を記号に変換する機能を持った入力端末から入力された文書に対し、入力された記号を、記号が表現する単語に変換する技術がある。
例えば特許文献1には、電子メールを対象文書とし、電子メールアドレスのドメイン名によって、文中の記号を文字列に変換する技術が開示されている。前記記号は、一つの記号に一つの単語を与えた変換テーブルによって変換される。
特許文献2に開示された端末装置は、電子メールを対象文とし、文中に含まれる記号である絵文字に、複数の意味候補から絵文字の意味を表す単語を1つ選択し与えることで、文中の絵文字を文字列に変換するようにしている。記号の意味候補は、1つの記号に、記号の意味を示す複数の候補文字列を対応付けた変換用辞書によって与えられる。複数の意味候補の中から、対象文において、記号が表す意味を選択する方法として、(1)複数の候補からユーザが選択すること、(2)複数の候補から置き換えられた頻度が高いものを選択すること、(3)複数の候補から自動的に1つを選択することのいずれかの方法で行われる。
特開2004−96454号公報 特開2003−296246号公報 特開2007−317132号公報
丹羽芳樹,新田義彦,「単語ベクトルを用いた多義語の意味推定−共起ベクトルと定義距離ベクトルの比較−」,自然言語処理研究会報告,社団法人情報処理学会,1994年7月22日,情処研報Vol.94,No.63,p.49−56
しかしながら、特許文献1の変換技術は、記号を単語に変換する際に、一つの記号に一つの単語を与えた変換テーブルによって変換されているため、記号が意味を持たないような場合や、一つの記号が複数の意味を持ち、一文中において、記号が持つ複数の意味のいずれかを表現しているような場合には対応できない。
特許文献2の変換技術は、一つの記号が複数の意味を持っている場合に対応できるものの、複数の候補から単語を選択する方法については記載されていない。また、記号が意味を持たないような場合については考慮されていない。
前記課題を解決するために本発明は、入力文に含まれる記号に対し記号が表現する文字列を与える際に、1つの記号が、特に意味を持たない場合や、複数の意味候補を持つ場合に、文中における記号の出現形態や、文全体の特徴量に基づき、文中における記号を、記号が表す適切な文字列に変換する。
本発明の記号変換方法の態様としては、入力文に含まれる記号を文字列に変換する記号変換方法であって、第一変換文字選択手段が、入力文に含まれる記号と文字列の出現形態が特定の記号と文字列の出現形態とこの出現形態の記号と変換可能な対応語とを対に格納する出現形態辞書に含まれる場合に、当該出現形態辞書に基づき前記入力文に含まれる記号が表す文字列を決定するステップと、前記入力文に含まれる記号と文字列の出現形態が前記出現形態辞書に含まれていない場合に、第二変換文字列選択手段が、特定の記号とこの記号を表す文字列とこの文字列が出現する文の特徴とを対に格納した記号変換辞書を用いて前記入力文の記号を文字列候補に変換し、この文字列候補のうちで前記入力文の前記記号以外の文字列と同一性を有する文字列を前記記号が表す文字列として決定するステップと、前記同一性を有する文字列候補がない場合に、第三変換文字列選択手段が、前記入力文の特徴と前記記号変換辞書中の前記入力文に含まれる記号を表す文字列が含まれる文の特徴群との類似度を比較し、特徴が前記入力文の特徴と最も類似した文に含まれる記号を表す文字列を前記入力文に含まれる記号が表す文字列として決定するステップを有する。
本発明の記号変換方法の他の態様としては、入力文に含まれる記号を文字列に変換する記号変換方法であって、第一変換文字選択手段が、入力文に含まれる記号と文字列の出現形態が特定の記号と文字列の出現形態とこの出現形態の記号と変換可能な対応語とを対に格納する出現形態辞書に含まれる場合に、当該出現形態辞書に基づき前記入力文に含まれる記号が表す文字列を決定するステップと、前記入力文に含まれる記号と文字列の出現形態が前記出現形態辞書に含まれていない場合に、第二変換文字列選択手段が、特定の記号とこの記号を表す文字列とこの文字列が出現する文の特徴とを対に格納した記号変換辞書を用いて前記入力文の記号を文字列候補に変換し、この変換した文字列候補の各文字列と前記入力文の文字列に含まれる語とを概念ベクトルに変換し、前記文字列候補の各文字列の概念ベクトルと前記入力文の文字列に含まれる語の概念ベクトルとの類似度を比較し、前記文字列候補の中で前記類似度が閾値以内であるもののうち最も類似している文字列を前記入力文に含まれる記号が表す文字列として決定するステップと、前記類似度が閾値以内になる文字列候補がない場合に、第三変換文字列選択手段が、前記入力文の特徴と前記記号変換辞書中の前記入力文に含まれる記号を表す文字列が含まれる文の特徴群との類似度を比較し、特徴が前記入力文の特徴と最も類似した文に含まれる記号を表す文字列を前記入力文に含まれる記号が表す文字列として決定するステップを有する。
本発明の記号変換装置の態様としては、入力文に含まれる記号を文字列に変換する記号変換装置であって、入力文に含まれる記号と文字列の出現形態が特定の記号と文字列の出現形態とこの出現形態の記号と変換可能な対応語とを対に格納する出現形態辞書に含まれる場合に、当該出現形態辞書に基づき前記入力文に含まれる記号が表す文字列を決定する第一変換文字選択手段と、前記入力文に含まれる記号と文字列の出現形態が前記出現形態辞書に含まれていない場合に、特定の記号とこの記号を表す文字列とこの文字列が出現する文の特徴とを対に格納した記号変換辞書を用いて前記入力文の記号を文字列候補に変換し、この文字列候補の中で前記入力文の前記記号以外の文字列と同一性を有する文字列を前記記号が表す文字列として決定する第二変換文字列選択手段と、前記同一性を有する文字列候補がない場合に、前記入力文の特徴と前記記号変換辞書中の前記入力文に含まれる記号を表す文字列が含まれる文の特徴群との類似度を比較し、特徴が前記入力文の特徴と最も類似した文に含まれる記号を表す文字列を前記入力文に含まれる記号が表す文字列として決定する第三変換文字列選択手段を備える。
本発明の記号変換装置の他の態様としては、入力文に含まれる記号を文字列に変換する記号変換装置であって、入力文に含まれる記号と文字列の出現形態が特定の記号と文字列の出現形態とこの出現形態の記号と変換可能な対応語とを対に格納する出現形態辞書に含まれる場合に、当該出現形態辞書に基づき前記入力文に含まれる記号が表す文字列を決定する第一変換文字選択手段と、前記入力文に含まれる記号と文字列の出現形態が前記出現形態辞書に含まれていない場合に、特定の記号とこの記号を表す文字列とこの文字列が出現する文の特徴とを対に格納した記号変換辞書を用いて前記入力文の記号を文字列候補に変換し、この変換した文字列候補の各文字列と前記入力文の文字列に含まれる語とを概念ベクトルに変換し、前記文字列候補の各文字列の概念ベクトルと前記入力文の文字列に含まれる語の概念ベクトルとの類似度を比較し、前記文字列候補の中で前記類似度が閾値以内であるもののうち最も類似している文字列を前記入力文に含まれる記号が表す文字列として決定する第二変換文字列選択手段と、前記類似度が閾値以内になる文字列候補がない場合に、前記入力文の特徴と前記記号変換辞書中の前記入力文に含まれる記号を表す文字列が含まれる文の特徴群との類似度を比較し、特徴が前記入力文の特徴と最も類似した文に含まれる記号を表す文字列を前記入力文に含まれる記号が表す文字列として決定する第三変換文字列選択手段を備える。
尚、本発明は上記記号変換装置を構成する各手段としてコンピュータとして機能させるための記号変換プログラムの態様とすることもできる。
以上の発明によれば、入力文に含まれる記号が特に意味を持たない場合や複数の意味候補を持つ場合に当該記号を適切な文字列に変換する。
本発明に係る記号変換装置の構成を示したブロック図。 本発明の第一の実施形態に係る記号出現形態による変換文字列選択手段(第一変換文字列選択手段)、記号の変換文字列に基づく変換文字列選択手段(第二変換文字列選択手段)、文特徴による変換文字列選択手段(第三変換文字列選択手段)によって実行される手順を説明したフローチャート図。 本発明の第二の実施形態に係る記号出現形態による変換文字列選択手段(第一変換文字列選択手段)、記号の変換文字列に基づく変換文字列選択手段(第二変換文字列選択手段)、文特徴による変換文字列選択手段(第三変換文字列選択手段)によって実行される手順を説明したフローチャート図。 記号一覧の一例を示した説明図。 出現形態辞書の一例を示した説明図。 記号変換辞書の一例を示した説明図。
以下、図面を参照しながら本発明の実施の形態の一例を説明する。
図1に示された本発明に係る記号変換装置1は入力された文字列と記号からなる文中の記号を当該記号が表す適切な文字列に変換する。
記号変換装置1は第一変換文字列選択手段101と第二変換文字列選択手段102と第三変換文字列選択手段103とを備える。
第一変換文字列選択手段101は、記号と文字列からなる入力文104の入力を受けると、前記文字列と入力文104中の記号一覧105に含まれる記号の出現形態が出現形態辞書106に含まれるかを確認し、前記出現形態が出現形態辞書106に含まれる場合は出現形態辞書106に基づいて変換文字列108(前記記号が表す文字列)を決定するステップS101を実行する。
第二変換文字列選択手段102は、ステップS101で入力文104における記号と文字列の出現形態が出現形態辞書106に含まれていないと判断された場合、記号変換辞書107を用いて前記記号を文字列候補(語)に変換し、この文字列候補と入力文104の前記記号以外の文字列との比較(同一性または類似性)に基づき変換文字列108を決定するステップS102を実行する。したがって、入力文104における記号と文字列の出現形態が出現形態辞書106にない場合でも、当該記号を適切な文字列に変換できる。
第三変換文字列選択手段103は、ステップS102で入力文104の文字列と同一または類似する文字列候補がないと判断された場合、入力文104の特徴と記号変換辞書107中の記号を表す文字列(語)が含まれる文の特徴群との類似度を比較し、特徴が入力文104の特徴と最も類似した文に含まれる記号を表す文字列(語)を変換文字列108と決定するステップS103を実行する。したがって、入力文104の文字列と同一または類似する文字列候補がないと判断された場合でも、入力文104における記号を適切な文字列に変換できる。
記号一覧105、出現形態辞書106、記号変換辞書107は予め用意されている。
記号一覧105は、第一変換文字列選択手段101が記号の出現形態による変換を行う際に参照されるデータベースであって、ID番号とこの番号に対応した記号を格納している。記号一覧105としては例えば図4に示された態様が挙げられる。図示された記号一覧105はID番号1,2,3,…に対して一対一に記号が割り当てられている。記号としては、図4に例示されたように、携帯端末から入力可能な絵文字が挙げられる。
出現形態辞書106は、第一変換文字列選択手段101が記号の出現形態による変換を行う際に参照される辞書であって、図5に例示したように、特定の出現形態の記号と、前記出現形態の記号と変換可能な対応語を対に格納したものである。
記号変換辞書107は、第二,第三変換文字列選択手段102,103が記号変換を行う際に参照される辞書であって、図6に例示したように、記号と、この記号を表す文字列(語)と、記号を表す文字列(語)が出現する文の特徴とを対に格納したものである。
第二変換文字列選択手段102による記号の変換文字列に基づく変換文字列選択の方法には二つの方法が挙げられる。
第一の方法は、図2に示された第一の実施形態に係るフローチャートのように、記号変換辞書107によって変換された文字列候補と入力文の記号以外の文字列部の文字列とのマッチング(同一性)に基づき変換文字列108を決定する方法である。この方法に基づく第二変換文字列選択手段102は、入力文104に含まれる記号と文字列の出現形態が出現形態辞書106に含まれていない場合、記号変換辞書107を用いて入力文104の記号を文字列候補に変換し、この文字列候補の中で入力文104の前記記号以外の文字列と同一性を有する文字列を前記記号が表す変換文字列108として決定する。
第二の方法は、図3に示された第二の実施形態に係るフローチャートのように、記号変換辞書107を用いた形態素解析による文字列候補の各文字列の概念ベクトルと入力文の記号以外の文字列部の文字列部分とを概念ベクトルとの類似度に基づき変換文字列108を決定する方法である。この方法に基づく第二変換文字列選択手段102は入力文104に含まれる記号と文字列の出現形態が出現形態辞書106に含まれていない場合に、記号変換辞書107を用いて入力文104の記号を文字列候補に変換し、この変換した文字列候補の各文字列と入力文104の前記記号以外の文字列に含まれる語を概念ベクトルに変換し、前記文字列候補の各文字列の概念ベクトルと前記記号以外の文字列に含まれる語の概念ベクトルとの類似度を比較し、前記文字列候補の中で前記類似度が閾値以内であるもののうち最も類似している文字列を前記記号が表す変換文字列108として決定する。
前記第一の方法に基づく図2に示された第一の実施形態に係る手順を実行する第一〜第三変換文字列選択手段101〜103の機能について説明する。
第一変換文字列選択手段101は、先ず、入力文104に含まれる記号と文字列の出現形態と出現形態辞書を比較し、前記出現形態が出現形態辞書106に含まれる場合に、出現形態辞書106を用いて変換文字列108を決定する(S201〜S203,S210)。
第二変換文字列選択手段102は、前記記号の出現形態が出現形態辞書106に含まれない場合は、入力文104を記号部212と文字列部214に分割し、記号変換辞書107を用いて記号部212を文字列候補213に変換する(S203〜S205)。次いで、前記変換によって得られた文字列候補213と、文字列部214とのマッチングすなわち同一性の確認を行い、文字列候補213の中で文字列部214と同一の文字列がある場合、当該文字列を変換文字列108として決定する(S206,S207,S210)。
第三変換文字列選択手段103は、文字列候補213で文字列部214と同一の文字列がない場合に、入力文104全体の文の特徴216と、記号変換辞書107中の記号が表現する語が含まれる文の特徴群を比較する(S208,S209)。そして、最も文の特徴が類似する記号を表す文字列を変換文字列108として決定する(S210)。
図2を参照しながら第一の実施形態に係る第一〜第三変換文字列選択手段101〜103による具体的な手順(S201〜S210)について説明する。
S201:第一変換文字列選択手段101は入力文104における記号と文字列の出現形態211を抽出する。例えば、「・・おばあちゃんの知恵袋・・」では、「(記号a)(記号a)(文字列)(記号a)(記号a)」となる。
S202:第一変換文字列選択手段101はS201で抽出された入力文104における記号と文字列の出現形態211が、出現形態辞書106に含まれるか否かを確認する。このステップによって、装飾などといった、記号と文字列の出現形態から、記号が表す文字列を特定する場合に対応できる。
S203:第一変換文字列選択手段101は、S202で入力文104における記号と文字列の出現形態211が出現形態辞書106に含まれていると確認した場合(YES)、変換文字列選択のステップS210に移行して、出現形態辞書106中の出現形態211に対して与えられている対応文字列を変換文字列108として決定する。一方、出現形態211が出現形態辞書106に含まれなかった場合(No)は、記号の変換文字列に基づく変換文字列選択のステップS204に進む。
S204:第二変換文字列選択手段102は、入力文104を記号一覧105に含まれる記号部212とこの記号部212以外の文字列部214とに分割する。
S205:第二変換文字列選択手段102は、記号部212を、記号部212に対応する語の集合である記号変換辞書107を用いて、記号部212に対応する文字列候補213に変換する。
S206:第二変換文字列選択手段102は、文字列候補213のそれぞれの語と、文字列部214の語のマッチング(同一性の確認)を行い、文字列部214の語と同一の文字列候補213の語があるかを確認する。
S207:第二変換文字列選択手段102は、S206で文字列部214の語と同一の文字列候補213の語がある場合(YES)、変換文字列選択のステップS210に移行して、文字列214の語と同一の文字列候補213の語を記号部212に対応する変換文字列108として決定する。一方、文字列候補213の中で文字列部214の語と同一のものがない場合(No)、文特徴に基づく変換文字列選択のステップS208に進む。
以下のステップS208,S209では、一つの記号を表す複数の文字列候補の中から、文脈において最も適していると考えられる文字列候補を変換文字列として抽出するため、非特許文献1のような、文脈を用いた多義語の意味推定問題を解決する方法によって解決することができると考えられる。非特許文献1の方法では、文脈を構成する単語のベクトル表現を足し合わせて文脈ベクトルをつくり、多義語の語義のベクトルと、文脈ベクトルとの類似度を多義解消に利用する。
S208:第三変換文字列選択手段103は、記号変換辞書107に登録されている記号に対応する文字列候補213を入力文104の記号部212に代入し、文字列候補213それぞれを代入した場合の入力文全体の文の特徴を抽出し、これを文特徴216とする。
例えば、入力文104が「午後には・がでるよ。」であった場合、記号変換辞書107より、記号部212「・」の文字列候補は(候補a:太陽,候補b:夏,候補c:楽しい,・・・)となる。次に、文字列候補それぞれを代入した場合の文{文A(候補a):「午後には太陽がでるよ」,文B(候補b):「午後には夏がでるよ」,文C(候補c):「午後には楽しいがでるよ」,・・・}の各入力文全体の文の特徴である(文Aの文特徴=A’,文Bの文特徴=B’,文Cの文特徴=C’,・・・)を求める。文の特徴は、特許文献3の手法で生成される概念ベクトル集合215を用い、入力文中の単語それぞれの概念ベクトルを求め、これらの概念ベクトルの重心を入力文全体の文の特徴ベクトルとする。前記概念ベクトルが(a1,a2,a3,…,an)と表記される場合、当該ベクトルの重心は下記の式(1)で示される。
Figure 0005320269
S209:第三変換文字列選択手段103は、ステップS208で抽出した、文字列候補213それぞれを代入した場合の入力文全体の文特徴216(文Aの文特徴=A’,文Bの文特徴=B’,文Cの文特徴=C’,・・・)と、記号変換辞書107において文字列候補213のそれぞれに与えられている記号を表す文字列(語)が出現する文の特徴216(特徴[候補a:太陽],特徴[候補b:夏],特徴[候補c:楽しい],・・・)を候補ごとに比較する。例えば、候補aについては、候補aを入力文104に代入した文Aの文特徴A’と、候補aが出現する文の特徴として記号変換辞書に与えられている特徴[候補a:太陽]を比較する。そして、最も類似している文特徴に出現する文字列候補213をS210で選択される変換文字列108と決定する。
S210:ステップS203,S207,S209のいずれかで、選択された文字列候補が変換文字列108として抽出される。
前記第二の方法に基づく図3に示された第二の実施形態に係る手順を実行する第一〜第三変換文字列選択手段101〜103の機能について説明する。
第一変換文字列選択手段101は、先ず、入力文104に含まれる記号の出現形態と出現形態辞書を比較し、記号の出現形態が出現形態辞書106に含まれる場合に、出現形態辞書106を用いて変換文字列108を決定する(S301〜S303,S311)。
第二変換文字列選択手段102は、前記記号の出現形態が出現形態辞書106に含まれない場合は、入力文104を記号部313と文字列部316に分割し、記号変換辞書107を用いて記号部313を文字列候補314に変換する(S303〜S305)。次いで、この変換された文字列候補314の各文字列と、文字列部316に含まれる語とを、概念ベクトル集合315を利用することでベクトルに変換し(S306)、この文字列候補314の各文字列の概念ベクトルと文字列部316に含まれる語の概念ベクトルとの類似度を比較する(S307)。そして、類似度が閾値以内になる文字列候補がある場合、この候補のなかで最も類似している文字列を変換文字列108として決定する(S308,S310)。
第三変換文字列選択手段103は、類似度が閾値以内になる文字列候補が無い場合、入力文104全体の文の特徴317と、記号変換辞書107中の記号が表現する語が含まれる文の特徴群を比較する(S309,S310)。そして、最も文の特徴が類似する記号を表す文字列を変換文字列108として決定する(S311)。
図3を参照しながら第二の実施形態に係る第一〜第三変換文字列選択手段101〜103による具体的な手順(S301〜S311)について説明する。
S301〜S305:ステップS201〜S205と同様の処理が実行される。
S306:第二変換文字列選択手段102は、特許文献3の手法で生成される概念ベクトル集合315を利用し、文字列候補314の概念ベクトルと文字列部316の概念ベクトルを算出する。
S307:第二変換文字列選択手段102は、S306のステップで得られた文字列候補314の各文字列の概念ベクトルと文字列部316に含まれる語の概念ベクトルとの類似度を比較する。
S308:第二変換文字列選択手段102は、S307で、文字列候補314の各文字列と文字列部316に含まれる語の概念ベクトルの類似度が閾値以内であったと判断された場合(Yes)、文字列候補314のなかで、文字列部中の語との類似度が閾値以内であって最も類似している文字列を決定する。この決定された文字列はステップS311にて変換文字列108として決定される。一方、文字列候補314と文字列部316の概念ベクトルの類似度が閾値以内でなかった場合(No)、文特徴による変換文字列選択のステップS309に進む。
S309〜S311:ステップS208〜S210と同様の処理が実行される。
以上のように本発明の実施形態に係る記号変換装置1は、入力文に含まれる記号に対し記号が表現する意味を与える際に、1つの記号が、特に意味を持たない場合や、複数の意味候補を持つ場合に、文中における記号の出現形態や、文中の記号以外の文字列の特徴量を用いている。したがって、文中の記号を、記号が表す適切な文字列に変換することができる。本発明は、言語処理技術に適用可能である。
本発明は、上記の実施の形態における各機能手段101〜103に係る処理をプログラムとして構築し、当該プログラムを通信回線または記録媒体によってコンピュータにインストールすれば、当該コンピュータによって実施することが可能である。記号一覧105、出現形態辞書106、記号変換辞書107はハードディス装置やファイルサーバ等に例示される記憶手段に予め格納するようにすればよい。
尚、本発明は、上記の実施の形態に限定されることなく、特許請求の範囲内において種々変更・応用が可能である。
1…記号変換装置
101…第一変換文字列選択手段
102…第二変換文字列選択手段
103…第三変換文字列選択手段
104…入力文
105…記号一覧
106…出現形態辞書
107…記号変換辞書
108…変換文字列

Claims (5)

  1. 入力文に含まれる記号を文字列に変換する記号変換方法であって、
    第一変換文字選択手段が、入力文に含まれる記号と文字列の出現形態が特定の記号と文字列の出現形態とこの出現形態の記号と変換可能な対応語とを対に格納する出現形態辞書に含まれる場合に、当該出現形態辞書に基づき前記入力文に含まれる記号が表す文字列を決定するステップと、
    前記入力文に含まれる記号と文字列の出現形態が前記出現形態辞書に含まれていない場合に、第二変換文字列選択手段が、特定の記号とこの記号を表す文字列とこの文字列が出現する文の特徴とを対に格納した記号変換辞書を用いて前記入力文の記号を文字列候補に変換し、この文字列候補のうちで前記入力文の前記記号以外の文字列と同一性を有する文字列を前記記号が表す文字列として決定するステップと、
    前記同一性を有する文字列候補がない場合に、第三変換文字列選択手段が、前記入力文の特徴と前記記号変換辞書中の前記入力文に含まれる記号を表す文字列が含まれる文の特徴群との類似度を比較し、特徴が前記入力文の特徴と最も類似した文に含まれる記号を表す文字列を前記入力文に含まれる記号が表す文字列として決定するステップ
    を有すること
    を特徴とする記号変換方法。
  2. 入力文に含まれる記号を文字列に変換する記号変換方法であって、
    第一変換文字選択手段が、入力文に含まれる記号と文字列の出現形態が特定の記号と文字列の出現形態とこの出現形態の記号と変換可能な対応語とを対に格納する出現形態辞書に含まれる場合に、当該出現形態辞書に基づき前記入力文に含まれる記号が表す文字列を決定するステップと、
    前記入力文に含まれる記号と文字列の出現形態が前記出現形態辞書に含まれていない場合に、第二変換文字列選択手段が、特定の記号とこの記号を表す文字列とこの文字列が出現する文の特徴とを対に格納した記号変換辞書を用いて前記入力文の記号を文字列候補に変換し、この変換した文字列候補の各文字列と前記入力文の文字列に含まれる語とを概念ベクトルに変換し、前記文字列候補の各文字列の概念ベクトルと前記入力文の文字列に含まれる語の概念ベクトルとの類似度を比較し、前記文字列候補の中で前記類似度が閾値以内であるもののうち最も類似している文字列を前記入力文に含まれる記号が表す文字列として決定するステップと、
    前記類似度が閾値以内になる文字列候補がない場合に、第三変換文字列選択手段が、前記入力文の特徴と前記記号変換辞書中の前記入力文に含まれる記号を表す文字列が含まれる文の特徴群との類似度を比較し、特徴が前記入力文の特徴と最も類似した文に含まれる記号を表す文字列を前記入力文に含まれる記号が表す文字列として決定するステップ
    を有すること
    を特徴とする記号変換方法。
  3. 入力文に含まれる記号を文字列に変換する記号変換装置であって、
    入力文に含まれる記号と文字列の出現形態が特定の記号と文字列の出現形態とこの出現形態の記号と変換可能な対応語とを対に格納する出現形態辞書に含まれる場合に、当該出現形態辞書に基づき前記入力文に含まれる記号が表す文字列を決定する第一変換文字選択手段と、
    前記入力文に含まれる記号と文字列の出現形態が前記出現形態辞書に含まれていない場合に、特定の記号とこの記号を表す文字列とこの文字列が出現する文の特徴とを対に格納した記号変換辞書を用いて前記入力文の記号を文字列候補に変換し、この文字列候補の中で前記入力文の前記記号以外の文字列と同一性を有する文字列を前記記号が表す文字列として決定する第二変換文字列選択手段と、
    前記同一性を有する文字列候補がない場合に、前記入力文の特徴と前記記号変換辞書中の前記入力文に含まれる記号を表す文字列が含まれる文の特徴群との類似度を比較し、特徴が前記入力文の特徴と最も類似した文に含まれる記号を表す文字列を前記入力文に含まれる記号が表す文字列として決定する第三変換文字列選択手段
    を備えたこと
    を特徴とする記号変換装置。
  4. 入力文に含まれる記号を文字列に変換する記号変換装置であって、
    入力文に含まれる記号と文字列の出現形態が特定の記号と文字列の出現形態とこの出現形態の記号と変換可能な対応語とを対に格納する出現形態辞書に含まれる場合に、当該出現形態辞書に基づき前記入力文に含まれる記号が表す文字列を決定する第一変換文字選択手段と、
    前記入力文に含まれる記号と文字列の出現形態が前記出現形態辞書に含まれていない場合に、特定の記号とこの記号を表す文字列とこの文字列が出現する文の特徴とを対に格納した記号変換辞書を用いて前記入力文の記号を文字列候補に変換し、この変換した文字列候補の各文字列と前記入力文の文字列に含まれる語とを概念ベクトルに変換し、前記文字列候補の各文字列の概念ベクトルと前記入力文の文字列に含まれる語の概念ベクトルとの類似度を比較し、前記文字列候補の中で前記類似度が閾値以内であるもののうち最も類似している文字列を前記入力文に含まれる記号が表す文字列として決定する第二変換文字列選択手段と、
    前記類似度が閾値以内になる文字列候補がない場合に、前記入力文の特徴と前記記号変換辞書中の前記入力文に含まれる記号を表す文字列が含まれる文の特徴群との類似度を比較し、特徴が前記入力文の特徴と最も類似した文に含まれる記号を表す文字列を前記入力文に含まれる記号が表す文字列として決定する第三変換文字列選択手段
    を備えたこと
    を特徴とする記号変換装置。
  5. 請求項3または4に記載の記号変換装置を構成する各手段としてコンピュータを機能させることを特徴とする記号変換プログラム。
JP2009262190A 2009-11-17 2009-11-17 記号変換方法、記号変換装置、記号変換プログラム Expired - Fee Related JP5320269B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009262190A JP5320269B2 (ja) 2009-11-17 2009-11-17 記号変換方法、記号変換装置、記号変換プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009262190A JP5320269B2 (ja) 2009-11-17 2009-11-17 記号変換方法、記号変換装置、記号変換プログラム

Publications (2)

Publication Number Publication Date
JP2011107974A JP2011107974A (ja) 2011-06-02
JP5320269B2 true JP5320269B2 (ja) 2013-10-23

Family

ID=44231370

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009262190A Expired - Fee Related JP5320269B2 (ja) 2009-11-17 2009-11-17 記号変換方法、記号変換装置、記号変換プログラム

Country Status (1)

Country Link
JP (1) JP5320269B2 (ja)

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008203984A (ja) * 2007-02-16 2008-09-04 Nec Corp 文字列変換装置及び文字列変換方法
JP4930584B2 (ja) * 2007-03-20 2012-05-16 富士通株式会社 音声合成装置、音声合成システム、言語処理装置、音声合成方法及びコンピュータプログラム

Also Published As

Publication number Publication date
JP2011107974A (ja) 2011-06-02

Similar Documents

Publication Publication Date Title
KR101326354B1 (ko) 문자 변환 처리 장치, 기록 매체 및 방법
JP5802292B2 (ja) 共有された言語モデル
JP5742506B2 (ja) 文書類似度算出装置
KR20150070171A (ko) 스트링 변환의 귀납적 합성을 위한 랭킹 기법
JP2010531492A (ja) ワード確率決定
JP4930379B2 (ja) 類似文検索方法、類似文検索システム及び類似文検索用プログラム
Kumar et al. Design and development of a stemmer for Punjabi
JP2013196358A (ja) 検索支援装置および検索支援方法
JP5121763B2 (ja) 感情推定装置、及び方法
JP2004070959A (ja) 適応型文脈依存解析
JP7031462B2 (ja) 分類プログラム、分類方法、および情報処理装置
JP4266222B2 (ja) 単語翻訳装置およびそのプログラム並びにコンピュータ読み取り可能な記録媒体
TW200519645A (en) Creating taxonomies and training data in multiple languages
JP2010134922A (ja) 類似語決定方法およびシステム
CN114138969A (zh) 文本处理方法及装置
JP2014002257A (ja) 言語モデル生成装置、その方法及びプログラム
Kozielski et al. Open-lexicon language modeling combining word and character levels
JP6605997B2 (ja) 学習装置、学習方法及びプログラム
JP5320269B2 (ja) 記号変換方法、記号変換装置、記号変換プログラム
JP6698061B2 (ja) 単語ベクトル変換装置、方法、及びプログラム
WO2007088902A1 (ja) 文字処理装置、方法、プログラムおよび記録媒体
JP5320326B2 (ja) 記号変換装置、記号変換方法、記号変換プログラム
JP6988715B2 (ja) 回答文選択装置、方法、およびプログラム
JP6805927B2 (ja) インデックス生成プログラム、データ検索プログラム、インデックス生成装置、データ検索装置、インデックス生成方法、及びデータ検索方法
JP5398638B2 (ja) 記号入力支援装置、記号入力支援方法、及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20120130

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130319

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130520

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130709

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130712

R150 Certificate of patent or registration of utility model

Ref document number: 5320269

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees