JP2008203984A - 文字列変換装置及び文字列変換方法 - Google Patents

文字列変換装置及び文字列変換方法 Download PDF

Info

Publication number
JP2008203984A
JP2008203984A JP2007036647A JP2007036647A JP2008203984A JP 2008203984 A JP2008203984 A JP 2008203984A JP 2007036647 A JP2007036647 A JP 2007036647A JP 2007036647 A JP2007036647 A JP 2007036647A JP 2008203984 A JP2008203984 A JP 2008203984A
Authority
JP
Japan
Prior art keywords
character string
conversion
candidate
morpheme
concept
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2007036647A
Other languages
English (en)
Inventor
Kenta Fukuoka
健太 福岡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2007036647A priority Critical patent/JP2008203984A/ja
Publication of JP2008203984A publication Critical patent/JP2008203984A/ja
Pending legal-status Critical Current

Links

Images

Abstract

【課題】入力文に含まれる絵文字列などの変換対象文字列をその変換対象文字列の意味を表す日本語等の他の文字列に変換する際に、構文的にも意味的にも適切に文字列変換を行うことが可能とする。
【解決手段】文字列変換装置1は、形態素解析部13、概念解析部15及び文字列変換制御部10を有する。形態素解析部13は、入力文100に含まれる絵文字列を党が言え文字列の意味を表す複数の変換候補文字列のそれぞれに置換して得られる複数の候補文章に対する形態素解析を行って、複数の候補文章を構成する形態素列の尤度を構文的な観点から評価する。概念解析部15は、複数の候補文章に含まれる形態素間の関連性に基づいて、複数の候補文章を構成する形態素列の尤度を意味的な観点から評価する。文字列変換制御部10は、形態素解析部13及び概念解析部15の評価結果に基づいて、複数の変換候補文字列の中から絵文字列と置換すべき文字列を決定する。
【選択図】図1

Description

本発明は、入力文に含まれる絵文字列などの変換対象文字列を、その変換対象文字列の意味を表す日本語等の他の文字列に変換する文字列変換装置及び文字列変換方法に関する。
従来、電子メールの作成時、送信時、転送処理時、及び受信時などに、電子メールの本文中に含まれる絵文字を、絵文字の意味を表す他の文字列に変換する技術が知られている。
例えば、特許文献1には、電子メールの送信先メールアドレス又は発信元メールアドレスのドメイン名に応じて、電子メールデータのメール本体部(件名及び本文)に含まれる絵文字を、絵文字の意味を文章化した他の文字列に自動的に変換するメール送信端末、メール受信端末及びメールサーバが開示されている。特許文献1に開示されたメール送信端末、メール受信端末及びメールサーバにおける絵文字から他の文字列への変換は、変換対象となる絵文字の文字コードと、絵文字の意味を表す文字列とが一対一に対応付けられた変換テーブルに基づいて行われる。
また、特許文献2には、電子メールの作成時及び作成された電子メールの送信時などに、電子メールデータのメール本体部に含まれる絵文字を、絵文字の意味を表す他の文字列に変換する電子メール端末装置が開示されている。特許文献2に開示された電子メール端末装置は、1文字の絵文字(例えば太陽を表す絵文字)と、これに対応する複数の意味を示す複数の候補文字列(例えば、第1候補文字列として「晴れ」、第2候補文字列として「快晴」)とが対応付けられた変換用辞書に基づいて行われる。そして、変換用辞書を参照して得られた複数の候補文字列の中から1つの文字列を選択する処理は、(1)ユーザに選択を促す表示を行うことにより、ユーザが複数の候補文字列の中から1つの文字列を選択すること、(2)複数の候補文字列の中でユーザにより置き換えられた頻度が最も高い文字列を自動的に選択すること、(3)複数の候補文字列の中から第1優先の文字列を自動的に選択すること、のいずれかにより行われることが開示されている。
特開2004−96454号公報 特開2003−296246号公報
上述したように、特許文献1に開示されたメール送信端末、メール受信端末及びメールサーバにおける絵文字から他の文字列への変換は、変換対象となる絵文字の文字コードと、絵文字の意味を表す文字列とが一対一に対応付けられた変換テーブルに基づいて行われる。つまり、特許文献1では、1つの絵文字が複数の意味を持ち得ることや、2文字以上の絵文字列が1文字の絵文字とは異なる意味を持ち得ることが考慮されていない。このため、特許文献1に開示された装置によって絵文字から自動変換された文字列を含む文章が、日本語の構文的かつ意味的(文脈的)に正しいものである可能性は高くないと考えられる。
一方、特許文献2は、1つの絵文字が複数の意味を表すこと、絵文字からその意味を表す他の文字列への変換を自動的に行ってもよいことを示唆している。しかしながら、ある絵文字に対応する複数の候補文字列の中から1つの文字列を選択する処理を、ユーザの指示に依ることなく自動的に行うための具体的な処理内容を何ら開示していない。また、特許文献1と同様に、2文字以上の絵文字列が1文字の絵文字とは異なる意味を持ち得ることは考慮されていない。
上述したように、絵文字列をその意味を表す他の文字列に変換する従来の文字列変換装置には、絵文字が変換された後の文章が構文的かつ意味的(文脈的)に正しいものとなるように絵文字の変換を行うことが困難であるという問題がある。
本発明の第1の態様にかかる文字列変換装置は、入力文に含まれる変換対象文字列を当該変換対象文字列の意味を表す他の文字列に変換する文字列変換装置であって、形態素解析部、概念解析部及び置換文字列決定部を有する。前記形態素解析部は、前記入力文に含まれる前記変換対象文字列を前記変換対象文字列の意味を表す複数の変換候補文字列のそれぞれに置換して得られる複数の候補文章に対する形態素解析を行って、前記複数の候補文章を構成する形態素列の尤度を構文的な観点から評価する。前記概念解析部は、前記複数の候補文章に含まれる形態素間の関連性に基づいて、前記複数の候補文章を構成する形態素列の尤度を意味的な観点から評価する。前記置換文字列決定部は、前記形態素解析部及び前記概念解析部の評価結果に基づいて、前記複数の変換候補文字列の中から前記変換対象文字列と置換すべき文字列を決定する。
なお、後述する発明の実施の形態における形態素解析部13、概念解析部15及び文字列変換処理部10が、上述の本発明の第1の態様にかかる文字列変換装置における形態素解析部、概念解析部及び置換文字列決定部に対応する。
このようなに構成された本発明の第1の態様にかかる文字列変換装置は、変換対象文字列を複数の変換候補文字列によって置き換えて得られる複数の候補文章に対する形態素解析を行うことによって、変換対象文字列の変換を構文的な観点から正しく行うことができる。さらに、形態素解析のみでは尤もらしい変換候補文字列を1つに特定できない、つまり、構文的に正しいと考えられる変換候補文字列が複数存在する場合にも、概念解析により意味的な観点から尤もらしい1つの変換候補文字列を選択することが可能となる。これにより、絵文字列等の変換対象文字列の変換を、構文的にも意味的にも適切に行うことが可能となる。
上述した本発明の第1の態様にかかる文字列変換装置において、前記概念解析部は、前記複数の候補文章の意味的な正しさを、前記複数の候補文章に含まれる形態素の共起関係又は当該形態素が持つ概念の共起関係に基づいて評価してもよい。また、前記概念解析部は、前記複数の候補文章の意味的な正しさを、前記複数の候補文章に含まれる形態素が持つ概念の関連度合いを示す距離尺度を用いて評価してもよい。
また、前記概念解析部による評価は、前記形態素解析部による評価結果中に構文的に正しい候補文章が2つ以上存在する場合に実行することとしてもよい。これにより、形態素解析によって1つの候補のみに絞られている場合は、速やかに変換候補文字列を決定できる。
また、上述した本発明の第1の態様にかかる文字列変換装置において、前記変換対象文字列を絵文字列としてもよい。さらに、前記入力文に2文字以上の絵文字の羅列が含まれる場合に、前記複数の変換候補文字列には、前記変換対象文字列に含まれる2文字以上の絵文字の組合せから想起される意味を示す文字列が含まれるよう構成してもよい。これにより、絵文字が2文字以上連続して使用される場合に1字で使用される場合と異なる意味を表す場合にも対応することができる。
また、上述した本発明の第1の態様にかかる文字列変換装置において、前記変換対象文字列が2文字以上の絵文字の羅列である場合に、前記複数の候補文章には、前記変換対象文字列に含まれる2文字以上の絵文字の組合せから想起される意味を示す文字列を含む文章と、前記変換対象文字列に含まれる1文字単位の各々の絵文字から想起される意味を示す文字列が羅列された文章とが含まれるよう構成してもよい。これにより、絵文字が2文字以上連続して使用される場合に1字で使用される場合と異なる意味を表す場合にも対応することができる。
また、上述した本発明の第1の態様にかかる文字列変換装置において、前記形態素解析部は、前記変換候補文字列を構成する形態素を当該形態素と同じ原型を有する他の形態素によって置換して得られる文章を、前記複数の候補文章の1つとしてもよい。これにより、活用形の異なるケース等を想定して絵文字列の変換を行えるため、絵文字列の変換を構文的、意味的に正しく行える可能性が向上する。
また、上述した本発明の第1の態様にかかる文字列変換装置において、前記形態素解析部は、前記変換候補文字列を構成する形態素を当該形態素と同じ語幹を有し活用語尾が異なる他の形態素によって置換して得られる文章を、前記複数の候補文章の1つとしてもよい。これにより、活用形の異なるケース等を想定して絵文字列の変換を行えるため、絵文字列の変換を構文的、意味的に正しく行える可能性が向上する。
本発明の第2の態様にかかる文字列変換装置は、入力文に含まれる変換対象文字列を、当該変換対象文字列の意味を表す文字列に変換する文字列変換装置であって、前記変換対象文字列に対応する少なくとも1つの変換候補文字列を記録した文字変換辞書データと、前記文字変換辞書データに基づいて、前記入力文に含まれる前記変換対象文字列に対応する全ての変換候補文字列を取得可能な候補文字列取得部と、形態素とその品詞が記録された形態素辞書データと、前記入力文中の前記変換対象文字列を前記候補文字列取得部により取得された前記変換候補文字列により置換して得られる候補文章を、前記形態素辞書データに基づいて形態素に分解し、分解された形態素の並びの構文的な正しさを評価する形態素解析部と、前記形態素間の関連性を記述した概念辞書データと、前記概念辞書データに基づいて、前記候補文章の意味的な正さを評価する概念解析部と、前記形態素解析部及び前記概念解析部の評価結果に基づいて、前記変換対象文字列と置換すべき文字列を決定する置換文字列決定部とを有する。
また、本発明の第3の態様にかかる文字列変換方法は、変換対象文字列に対応する少なくとも1つの変換候補文字列を記録した文字変換辞書データを参照して、入力文に含まれる前記変換対象文字列を前記変換候補文字列に置換することにより少なくとも1つの候補文章を生成し、前記少なくとも1つの候補文章を形態素に分解し、前記形態素列の品詞の並びに基づいて、前記少なくとも1つの候補文章の構文的な正さを評価し、前記少なくとも1つの候補文章に含まれる形態素間の関連性に基づいて、前記複数の候補文章の意味的な正さを評価し、前記構文的な正さの評価結果及び前記意味的な正しさの評価結果に基づいて、前記変換対象文字列と置換すべき文字列を決定する。
上述した本発明の第2の態様にかかる文字列変換装置及び本発明の第3の態様にかかる文字列変換方法は、変換対象文字列を複数の変換候補文字列によって置き換えて得られる複数の候補文章に対する形態素解析を行うことによって、変換対象文字列の変換を構文的な観点から正しく行うことができる。さらに、形態素解析のみでは尤もらしい変換候補文字列を1つに特定できない、つまり、構文的に正しいと考えられる変換候補文字列が複数存在する場合にも、概念解析により意味的な観点から尤もらしい1つの変換候補文字列を選択することが可能となる。これにより、絵文字列等の変換対象文字列の変換を、構文的にも意味的にも適切に行うことが可能となる。
本発明により、入力文に含まれる絵文字列などの変換対象文字列をその変換対象文字列の意味を表す日本語等の他の文字列に変換する際に、構文的にも意味的にも適切に文字列変換を行うことが可能となる。
以下では、本発明を適用した具体的な実施の形態について、図面を参照しながら詳細に説明する。各図面において、同一要素には同一の符号が付されており、説明の明確化のため、必要に応じて重複説明は省略される。
発明の実施の形態1.
本実施の形態にかかる文字列変換装置は、標準文字と絵文字が混在又は絵文字のみにより構成される入力文章データに含まれている絵文字列を、絵文字の意味を表す標準文字の文字列に置換して出力する装置である。なお、本明細書において使用される"文字列"の用語は、2字以上の文字の羅列により構成されるものに限らず、1文字のみで構成されるものも含む。
また、本実施の形態における絵文字とは、物、事柄、感情、観念等を絵によって象徴的に表したものであり、特定の通信事業者が定めた特殊な文字コード体系に対応した携帯電話端末等でのみ表示可能な文字である。通常、絵文字は、絵文字表示可能な携帯電話端末において、漢字やひらがなと同様に全角(2バイト)表示される。
また、本実施の形態において、絵文字の意味を表すために用いられる標準文字とは、ひらがな、カタカナ、漢字、全角数字などの2バイト文字を表示するための標準的な日本語文字コード(JISコード、シフトJISコード、EUCコード、Unicode等)に含まれる文字と、英字、半角数字、半角記号などを表示するための7ビットASCIIコード、拡張8ビットASCIIコード等に含まれる文字を意味する。
本実施の形態にかかる文字列変換装置1の構成を図1に示す。図1において、文字列変換制御部10は、絵文字を含む入力文100における絵文字列をその意味を表す標準文字による文字列に変換する処理の全体を制御する。候補文字列取得部11は、絵文字変換辞書12を参照して、入力文100に含まれる絵文字列と置換される文字列の候補となる変換候補文字列を取得する。なお、候補文字列取得部11は、絵文字変換辞書12において入力文100に含まれる絵文字列と対応付けられている全ての変換候補文字列を取得する。
絵文字変換辞書12は、絵文字列に対応する1又は複数の標準文字による変換候補文字列を記録した辞書データである。絵文字変換辞書12のデータ構造の一例を図2に示す。図2の例では、太陽の形を表した絵文字列121に対する変換候補文字列として、「晴れ」及び「太陽」が記録されている。また、上向き矢印の形を表した絵文字列122に対する変換候補文字列として、「上」及び「上がる」が記録されている。また、下向き矢印の形を表した絵文字列123に対する変換候補文字列として、「下」及び「下がる」が記録されている。なお、絵文字が2次以上連続して使用される場合には、絵文字が1字で使用される場合と異なる意味を表す場合がある。このため、図2の例では、上向き矢印の形を表した絵文字と下向き矢印の形を表した絵文字の2字からなる絵文字列124に対する変換候補文字列として、「上下する」及び「変化する」が記録されている。
形態素解析部13は、入力文100に含まれる絵文字列を変換候補文字列によって置き換えて得られる複数の候補文章に対して形態素解析を実行し、候補文章を構成する形態素列の尤度を構文的な観点から評価する。より具体的に述べると、形態素解析部13は、形態素辞書14を参照しながら、候補文章を形態素の列に分解し、分解された形態素の品詞を決定する。さらに、形態素解析部13は、複数の候補文章のそれぞれについて、品詞の並びが日本語の文法に照らして正しいものであるか否かを評価し、構文的に正しい候補文章を決定する。なお、形態素解析部13によって構文的に正しいとされる候補文章は、1つであるとは限らず、複数の候補文章が構文的に正しい場合がある。
形態素解析によって得られた品詞の並びが文法的に正しいか否かを評価する手法は、様々な方法が知られている。例えば、日本語における品詞の接続の制限や係り受け規則に照らして、日本語として正しいか否かを判断する方法ある。また、隠れマルコフモデル等の言語モデルを利用する統計的方法も知られている。このような統計的な手法では、形態素の繋がりをコスト化し、文章全体でのコストが最小になるような形態素列を最も尤度が高い形態素列と判定する。本実施の形態における形態素解析の手法には、これらの公知の手法を適宜選択して適用すればよい。
形態素辞書14は、形態素とその品詞情報を関連付けて記述した辞書データである。形態素辞書14のデータ構造の一例を図3に示す。図3に示すように、本実施の形態にかかる形態素辞書14の1つのレコードには、形態素の表記(見出し)、品詞情報、活用形情報、原型情報が含まれる。このうち、品詞情報としては、名詞、動詞、形容詞、形容動詞、副詞、接続詞、助詞、助動詞などが示される。なお、図3の例では、名詞及び動詞についてより詳細な分類(一般名詞であるか固有名詞であるか、自立動詞であるか非自立動詞であるか等)を示している。また、活用形情報は動詞の活用形を示しており、原型情報は、活用のある動詞等の原型(基本形)を示している。
概念解析部15は、形態素解析部13によって構文的に正しいとされた複数の候補文章の形態素列の尤度を、形態素の関連性又は形態素が持つ概念の関連性に基づいて意味的な観点から評価する。つまり、概念解析部15は、形態素解析による構文的な判定では1つの候補文字列を特定できない場合に、入力文100の文脈に最も合致する1つの候補文字列を決定する。
概念辞書16は、形態素間の関連性を記述する辞書データである。形態素間の関連性は、形態素そのものの関連性あるいは形態素が有する概念の関連性として概念辞書16に記録される。概念辞書の一例は、形態素そのもの共起頻度(表層共起頻度と呼ぶ)又は形態素が有する概念の共起頻度(概念共起頻度)を記録した共起辞書である。共起辞書による概念辞書16が有するレコードの一例を図4に示す。図4に示す共起辞書レコード161は、共起句構成要素1611と共起状況1612を情報として有する。ここで、共起句構成要素1611は、共起句を構成する構成要素列を示すデータである。一方、共起状況1612は、表層共起頻度若しくは概念共起頻度、又はこれらの両方を含む。なお、表層共起頻度及び概念共起頻度は、一般的に、コーパスを学習データとし、コーパスに現れる単語の共起頻度及び単語の持つ概念の共起頻度を係数することにより得られる。
概念辞書16の他の例は、木構造等により概念間の関係性を規定した概念体系を記憶した概念体系辞書である。概念体系辞書による概念辞書16が有するレコードの一例を図5(a)に示す。図5(a)に示す概念体系辞書レコード261は、上位概念2611と下位概念2612を1つのレコードとしている。これにより概念間の関連性が規定される。なお、図5(a)のような概念体系辞書を使用して概念解析部15が概念解析を行うためには、形態素解析部13により得られた形態素がどのような概念を有するかを判定する必要がある。このため、形態素と概念の関係を規定した辞書データが必要となる。具体的には、図5(b)に示すような単語辞書レコード261により、単語とその意味情報(概念情報)を関連付ける単語辞書を概念辞書16の一部として保持すればよい。なお、形態素辞書14に、形態素と概念の関係を規定する意味情報を追加すれば、図5(b)の単語辞書は、形態素辞書14と共通化することができる。
続いて、図6に示すフローチャートを参照して本実施の形態にかかる文字列変換装置1が行う文字列変換処理動作について詳しく説明する。まず、入力文100を先頭から1文単位で処理し(ステップS101)、文中に絵文字が含まれている場合にステップS103以降の処理を実行する(ステップS102)。一方、絵文字が含まれない場合にはステップS101に戻って次の文の処理を開始する。
ステップS103では、候補文字列取得部11が絵文字変換辞書12を参照して、解析対象の一文に含まれる絵文字列に対応する全ての変換候補文字列を取得する。具体例を述べると、例えば、図2の太陽の形を表した絵文字列121が解析対象文に含まれる場合は、「晴れ」と「太陽」が変換候補とされる。また、例えば、(絵文字1)(絵文字2)と2つの絵文字が連続して解析文中に含まれる場合は、(絵文字1)、(絵文字2)、及び、(絵文字1)(絵文字2)の3つの絵文字列を絵文字変換辞書12で検索する。
具体例を示すと、例えば、図2に示す上向き矢印の形を表した絵文字と下向き矢印の形を表した絵文字の2字からなる絵文字列124が解析対象文に含まれる場合は、上向き矢印だけの絵文字列122として検索される候補「上」及び「上がる」、下向き矢印だけの絵文字列123として検索される候補「下」及び「下がる」、2文字からなる絵文字列124として検索される候補「上下する」及び「変化する」の全てが変換候補文字列とされる。このように、絵文字が連続して含まれている場合には、想定される全ての組合せを考えて変換候補文字列を選択することにより、絵文字が2文字以上連続して使用される場合に1字で使用される場合と異なる意味を表す場合にも対応することができる。
続くステップS104では、解析対象文中の絵文字列を変換候補文字列によって置換することにより得られる全ての候補文章について、形態素解析部13が形態素解析を実行する。なお、図2に示した本実施の形態の絵文字変換辞書12に含まれる変換候補文字列は、原型により登録されている。すなわち、各々の変換候補文字列は、原型と品詞情報により特定され、複数の形態素よりなる変換候補文字列は、形態素ごとに原型と品詞情報を持つ。例えば、「変化する」という変換候補文字列は、"原型、品詞情報"として、"変化、名詞‐サ変接続"と、"する、動詞‐自立"を持つ。したがって、形態素解析部13が対象とする候補文章には、原型で示される変換候補文字列の活用形を変化させたものなど、"原型、品詞情報"が共通する全ての形態素候補を形態素辞書14から選択し、これらの形態素候補によって変換候補文字列を構成する形態素を置換して得られる文章も含めるとよい。これにより、活用形の異なるケース等を想定して絵文字列の変換を行えるため、絵文字列の変換を構文的、意味的に正しく行える可能性が向上する。
また、絵文字は必ずしも何らかの文字列に置き換わるとは限らない、言い換えると特に意味を持たない絵文字列が文中に挿入されている場合もあるため、他の文字列に置き換えずに絵文字を削除するだけの変換候補文字列、候補文章も形態素解析部13による解析対象とすることが望ましい。
形態素解析部13による形態素解析の結果、構文的に正しい候補文章が1つに絞られた場合、文字列変換制御部10は、1つに絞られた候補文章を採用し、これに対応する候補文字列によって絵文字列を置換する(ステップS105及び107)。一方、構文的に正しい候補文章が複数存在する場合、概念解析部15による概念解析を実行し、候補文章の意味的な尤度を評価する(ステップS106)。概念解析部15が概念辞書16を用いて意味的に最も正しい候補文章を1つ選択する方法は様々である。例えば、図4に示す共起頻度による概念辞書16を用いる場合は、候補文章中に含まれる形態素のうち、品詞が名詞又は動詞である形態素間の共起頻度を求め、最も共起頻度が高い候補文章を選択すればよい。また、共起頻度を用いる以外の方法として、例えば、候補文章に含まれる形態素間の何らかの距離尺度(距離コスト)を用いることにより、距離コストが最小となる候補文章を選択してもよい。具体的には、図5に示す概念体系による概念辞書16を用いて、木構造の概念体系における概念間の距離をコスト化し、各候補文章の距離コストを算出し、最小コストとなった候補文章を意味的に最も正しいものとして選択すればよい。
ステップS107では、形態素解析及び概念解析の結果、構文的及び意味的に最も尤度の高い、つまり最も正しいとされた候補文章の変換候補文字列によって、解析対象文中の絵文字列を置換する。
上述したステップS101乃至S107の処理を繰り返し、入力文100の終わりに到達すると、絵文字列が全て変換又は削除された出力文200を出力して処理を終了する(ステップS108)。
上述したように、本実施の形態にかかる文字列変換装置1は、絵文字列を複数の変換候補文字列によって置き換えて得られる複数の候補文章に対する形態素解析を行うことによって、絵文字列の変換を構文的な観点から正しく行うことができる。さらに、形態素解析のみでは尤もらしい変換候補文字列を1つに特定できない、つまり、構文的に正しいと考えられる変換候補文字列が複数存在する場合にも、概念辞書を用いた概念解析を行って、意味的、文脈的な観点から尤もらしい1つの変換候補文字列を選択することとした。これにより、絵文字列の変換を、構文的にも意味的にも適切に行うことが可能となる。
なお、絵文字列を自動変換することを可能とする本実施の形態にかかる文字列変換装置1は、携帯電話端末などのメール送信端末に用いて、メールタイトルや、メール本文に含まれる絵文字を変換する用途に使用することができる。また、メールサーバ(SMTPサーバ)に用いて、送信メールデータ(RCPT To: )に含まれる送信先アドレスのドメインに応じて、絵文字変換を行う用途に使用してもよい。
その他の実施の形態.
発明の実施の形態1にかかる文字列変換装置1は、構文的及び意味的に最も正しいと判定された文字列によって絵文字列を自動変換する構成とした。しかしながら、変換候補文字列に対して、形態素解析及び概念解析の結果に基づいて優先順位をつけ、複数の変換候補文字列を表示装置などに出力しても良い。例えば、メール送信端末に本発明を適用する場合に、優先順位をつけて表示された複数の変換候補文字列からユーザによる選択を受け付けることとすれば、ユーザの選択が容易となり、ユーザの利便性を向上できる。
また、発明の実施の形態1では、変換候補文字列を構成する形態素を同じ原型を有する他の形態素により置換した得られる文字列も候補文字列の1つとした。しかしながら、より簡易な構成においては、元の変換候補文字列を含む候補文章のみについて形態素解析を行ってもよい。また、同じ原型を有する全ての形態素ではなく、これらの中から選択された形態素による文字列を含むいくつかの候補文章について形態素解析を行ってもよい。
また、発明の実施の形態1の文字列変換装置1は、絵文字列を変換対象文字列とする場合について説明した。しかしながら、変換対象文字列は、絵文字列に限られない。日本語と外国語が混在する入力文において外国語文字列を変換対象文字列とし、外国語文字列をその意味を表す日本語文字列に変換することも可能である。この場合は、絵文字変換辞書12に代えて、外国語文字列に対応する少なくとも1つの変換候補文字列(日本語文字列)を記録した文字変換辞書を設ければよい。また、変換後の文字列が日本語に限られないことも勿論である。
さらに、本発明は上述した実施の形態のみに限定されるものではなく、既に述べた本発明の要旨を逸脱しない範囲において種々の変更が可能であることは勿論である。
本発明の実施の形態にかかる文字列変換装置を示すブロック図である。 絵文字変換辞書の構成例を示す図である。 形態素辞書の構成例を示す図である。 概念辞書の構成例を示す図である。 概念辞書の構成例を示す図である。 本発明の実施の形態にかかる文字列変換装置による絵文字列の変換処理手順を示すフローチャートである。
符号の説明
1 文字列変換装置
10 文字列変換制御部
11 候補文字列取得部
12 絵文字変換辞書
13 形態素解析部
14 形態素辞書
15 概念解析部
16 概念辞書

Claims (17)

  1. 入力文に含まれる変換対象文字列を当該変換対象文字列の意味を表す他の文字列に変換する文字列変換装置であって、
    前記入力文に含まれる前記変換対象文字列を前記変換対象文字列の意味を表す複数の変換候補文字列のそれぞれに置換して得られる複数の候補文章に対する形態素解析を行って、前記複数の候補文章を構成する形態素列の尤度を構文的な観点から評価する形態素解析部と、
    前記複数の候補文章に含まれる形態素間の関連性に基づいて、前記複数の候補文章を構成する形態素列の尤度を意味的な観点から評価する概念解析部と、
    前記形態素解析部及び前記概念解析部の評価結果に基づいて、前記複数の変換候補文字列の中から前記変換対象文字列と置換すべき文字列を決定する置換文字列決定部と、
    を備える文字列変換装置。
  2. 前記概念解析部は、前記複数の候補文章の意味的な正しさを、前記複数の候補文章に含まれる形態素の共起関係又は当該形態素が持つ概念の共起関係に基づいて評価する請求項1に記載の文字列変換装置。
  3. 前記概念解析部は、前記複数の候補文章の意味的な正しさを、前記複数の候補文章に含まれる形態素が持つ概念の関連度合いを示す距離尺度を用いて評価する請求項1に記載の文字列変換装置。
  4. 前記概念解析部による評価は、前記形態素解析部による評価結果中に構文的に正しい候補文章が2つ以上存在する場合に実行される請求項1乃至3のいずれかに記載の文字列変換装置。
  5. 前記変換対象文字列は絵文字列であって、前記入力文に2文字以上の絵文字の羅列が含まれる場合に、前記複数の変換候補文字列には、前記変換対象文字列に含まれる2文字以上の絵文字の組合せから想起される意味を示す文字列が含まれることを特徴とする請求項1乃至3のいずれかに記載の文字列変換装置。
  6. 前記変換対象文字列が2文字以上の絵文字の羅列である場合に、前記複数の候補文章には、前記変換対象文字列に含まれる2文字以上の絵文字の組合せから想起される意味を示す文字列を含む文章と、前記変換対象文字列に含まれる1文字単位の各々の絵文字から想起される意味を示す文字列が羅列された文章とが含まれることを特徴とする請求項1乃至3のいずれかに記載の文字列変換装置。
  7. 前記形態素解析部は、前記変換候補文字列を構成する形態素を当該形態素と同じ原型を有する他の形態素によって置換して得られる文章を、前記複数の候補文章の1つとする請求項1乃至3のいずれかに記載の文字列変換装置。
  8. 前記形態素解析部は、前記変換候補文字列を構成する形態素を当該形態素と同じ語幹を有し活用語尾が異なる他の形態素によって置換して得られる文章を、前記複数の候補文章の1つとする請求項1乃至3のいずれかに記載の文字列変換装置。
  9. 入力文に含まれる変換対象文字列を、当該変換対象文字列の意味を表す文字列に変換する文字列変換装置であって、
    前記変換対象文字列に対応する少なくとも1つの変換候補文字列を記録した文字変換辞書データと、
    前記文字変換辞書データに基づいて、前記入力文に含まれる前記変換対象文字列に対応する全ての変換候補文字列を取得可能な候補文字列取得部と、
    形態素とその品詞が記録された形態素辞書データと、
    前記入力文中の前記変換対象文字列を前記候補文字列取得部により取得された前記変換候補文字列により置換して得られる候補文章を、前記形態素辞書データに基づいて形態素に分解し、分解された形態素の並びの構文的な正しさを評価する形態素解析部と、
    前記形態素間の関連性を記述した概念辞書データと、
    前記概念辞書データに基づいて、前記候補文章の意味的な正さを評価する概念解析部と、
    前記形態素解析部及び前記概念解析部の評価結果に基づいて、前記変換対象文字列と置換すべき文字列を決定する置換文字列決定部と、
    を備える文字列変換装置。
  10. 前記概念辞書データは、前記形態素が含まれる複数の概念間を関連付けた概念体系辞書を含む請求項9に記載の文字列変換装置。
  11. 前記概念辞書データには、前記複数の候補文章に含まれる形態素の共起頻度又は当該形態素が持つ概念の共起頻度が記録され、
    前記概念解析部は、前記形態素の共起頻度又は前記概念の共起頻度に基づいて、前記候補文章の意味的な正さを評価する請求項9に記載の文字列変換装置。
  12. 前記概念解析部による評価は、前記形態素解析部による評価結果中に構文的に正しい候補文章が2つ以上存在する場合に実行される請求項9乃至11のいずれかに記載の文字列変換装置。
  13. 前記変換対象文字列が絵文字列であって、前記文字変換辞書データ中の前記変換候補文字列には、前記変換対象文字列に含まれる2文字以上の絵文字の羅列から想起される意味を示す文字列と、前記変換対象文字列に含まれる1文字単位の各々の絵文字から想起される意味を示す文字列とが含まれる請求項9乃至11のいずれかに記載の文字列変換装置。
  14. 前記文字変換辞書データに含まれる前期変換候補文字列は、形態素の原型の組合せであり、
    前記計形態素辞書データは、各形態素について品詞、活用形及び原型を記録したデータ構造を有し、
    前記形態素解析部は、前記変換候補文字列を構成する形態素を当該形態素と同じ原型を有する他の形態素によって置換して得られる文章を前記候補文章に加えて評価を行う請求項9乃至11のいずれかに記載の文字列変換装置。
  15. 変換対象文字列に対応する少なくとも1つの変換候補文字列を記録した文字変換辞書データを参照して、入力文に含まれる前記変換対象文字列を前記変換候補文字列に置換することにより少なくとも1つの候補文章を生成し、
    前記少なくとも1つの候補文章を形態素に分解し、前記形態素列の品詞の並びに基づいて、前記少なくとも1つの候補文章の構文的な正さを評価し、
    前記少なくとも1つの候補文章に含まれる形態素間の関連性に基づいて、前記複数の候補文章の意味的な正さを評価し、
    前記構文的な正さの評価結果及び前記意味的な正しさの評価結果に基づいて、前記変換対象文字列と置換すべき文字列を決定する文字列変換方法。
  16. 前記構文的な正しさの評価によって、前記変換対象文字列と置換可能な変換候補文字列が1つに特定される場合は、特定された当該変換候補文字列を前記変換対象文字列と置換すべき文字列を決定し、
    前記構文的な正しさの評価によって、前記変換対象文字列と置換可能な変換候補文字列が2つ以上存在する場合に、これら2つ以上の文字列に対して前記意味的な正しさの評価を実行する請求項15に記載の文字列変換方法。
  17. 前記変換対象文字列が2文字以上の絵文字の羅列である場合に、前記複数の候補文章には、前記変換対象文字列に含まれる2文字以上の絵文字の組合せから想起される意味を示す文字列を含む文章と、前記変換対象文字列に含まれる1文字単位の各々の絵文字から想起される意味を示す文字列が羅列された文章とが含まれることを特徴とする請求項15に記載の文字列変換方法。
JP2007036647A 2007-02-16 2007-02-16 文字列変換装置及び文字列変換方法 Pending JP2008203984A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007036647A JP2008203984A (ja) 2007-02-16 2007-02-16 文字列変換装置及び文字列変換方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007036647A JP2008203984A (ja) 2007-02-16 2007-02-16 文字列変換装置及び文字列変換方法

Publications (1)

Publication Number Publication Date
JP2008203984A true JP2008203984A (ja) 2008-09-04

Family

ID=39781461

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007036647A Pending JP2008203984A (ja) 2007-02-16 2007-02-16 文字列変換装置及び文字列変換方法

Country Status (1)

Country Link
JP (1) JP2008203984A (ja)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010257021A (ja) * 2009-04-22 2010-11-11 Kddi Corp 文章修正装置、文章修正システム、文章修正方法、文章修正プログラム
JP2010271870A (ja) * 2009-05-20 2010-12-02 Yahoo Japan Corp 連続絵文字等解析装置
JP2011070440A (ja) * 2009-09-25 2011-04-07 Baidu Japan Inc 情報処理装置、情報処理方法およびプログラム
JP2011107974A (ja) * 2009-11-17 2011-06-02 Nippon Telegr & Teleph Corp <Ntt> 記号変換方法、記号変換装置、記号変換プログラム
JP2011113099A (ja) * 2009-11-21 2011-06-09 Kddi R & D Laboratories Inc 未知語を含む文章を修正するための文章修正プログラム、方法及び文章解析サーバ
JP2011180836A (ja) * 2010-03-01 2011-09-15 Nippon Telegr & Teleph Corp <Ntt> 記号変換装置、記号変換方法、記号変換プログラム
EP2990930B1 (en) * 2014-08-29 2022-04-20 Samsung Electronics Co., Ltd. Scraped information providing method and apparatus
KR20230050673A (ko) * 2021-10-08 2023-04-17 주식회사 리니토 자연어이해 학습 모델을 위한 학습데이터의 이중 증강 방법 및 장치

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010257021A (ja) * 2009-04-22 2010-11-11 Kddi Corp 文章修正装置、文章修正システム、文章修正方法、文章修正プログラム
JP2010271870A (ja) * 2009-05-20 2010-12-02 Yahoo Japan Corp 連続絵文字等解析装置
JP2011070440A (ja) * 2009-09-25 2011-04-07 Baidu Japan Inc 情報処理装置、情報処理方法およびプログラム
JP2011107974A (ja) * 2009-11-17 2011-06-02 Nippon Telegr & Teleph Corp <Ntt> 記号変換方法、記号変換装置、記号変換プログラム
JP2011113099A (ja) * 2009-11-21 2011-06-09 Kddi R & D Laboratories Inc 未知語を含む文章を修正するための文章修正プログラム、方法及び文章解析サーバ
JP2011180836A (ja) * 2010-03-01 2011-09-15 Nippon Telegr & Teleph Corp <Ntt> 記号変換装置、記号変換方法、記号変換プログラム
EP2990930B1 (en) * 2014-08-29 2022-04-20 Samsung Electronics Co., Ltd. Scraped information providing method and apparatus
KR20230050673A (ko) * 2021-10-08 2023-04-17 주식회사 리니토 자연어이해 학습 모델을 위한 학습데이터의 이중 증강 방법 및 장치
KR102626714B1 (ko) 2021-10-08 2024-01-23 주식회사 리니토 자연어이해 학습 모델을 위한 학습데이터의 이중 증강 방법 및 장치

Similar Documents

Publication Publication Date Title
US8515733B2 (en) Method, device, computer program and computer program product for processing linguistic data in accordance with a formalized natural language
KR100890691B1 (ko) 언어학적으로 지능적인 텍스트 압축방법 및 그 처리장치
JP5362095B2 (ja) インプットメソッドエディタ
JP2008203984A (ja) 文字列変換装置及び文字列変換方法
US20020126097A1 (en) Alphanumeric data entry method and apparatus using reduced keyboard and context related dictionaries
JPS6231467A (ja) 文章作成装置
CN1384940A (zh) 以无模式输入将一种文本形式转换成另一种文本形式的语言输入体系结构
US20070011160A1 (en) Literacy automation software
JP2010181993A (ja) 絵文字を含む文章ファイルを評価する評価分析サーバ、方法及びプログラム
TWI588668B (zh) Foreign language production support facilities and methods
US7136803B2 (en) Japanese virtual dictionary
KR20100046043A (ko) 키패드 텍스트 입력의 명확화
Brini et al. An Arabic Question-Answering system for factoid questions
KR101541170B1 (ko) 텍스트 요약 장치 및 방법
Ganfure et al. Design and implementation of morphology based spell checker
JPH11305987A (ja) テキスト音声変換装置
KR102182248B1 (ko) 문법 검사 시스템 및 방법과 이를 위한 컴퓨터 프로그램
JP4088171B2 (ja) テキスト解析装置、方法、プログラム及びそのプログラムを記録した記録媒体
Alkhazi Compression-Based Parts-of-Speech Tagger for the Arabic Language
Vojnovski et al. Learning PoS tagging from a tagged Macedonian text corpus
EP1221082B1 (en) Use of english phonetics to write non-roman characters
JP2005250525A (ja) 漢文解析支援装置及び異言語文処理装置及び翻訳プログラム
Rodrigues et al. Arabic data science toolkit: An api for arabic language feature extraction
JP2011248538A (ja) 記号入力支援装置、記号入力支援方法、及びプログラム
Rădescu et al. Text prediction techniques based on the study of constraints and their applications for intelligent virtual keyboards in learning systems