JP2010092350A

JP2010092350A - 顔文字検出装置、その方法、プログラム及び記録媒体

Info

Publication number: JP2010092350A
Application number: JP2008262869A
Authority: JP
Inventors: Toru Hirano; 徹平野; Yoshihiro Matsuo; 義博松尾
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: NTT Inc
Priority date: 2008-10-09
Filing date: 2008-10-09
Publication date: 2010-04-22
Anticipated expiration: 2028-10-09
Also published as: JP5026384B2

Abstract

【課題】テキストからの顔文字検出において、ＨＴＭＬソーステキストにおける顔文字の出現傾向を捉え、検出精度を向上すること。
【解決手段】ＨＴＭＬタグ検出部１１により、テキスト中のＨＴＭＬタグをその出現位置とともに検出してＨＴＭＬタグ記憶部１２に記憶し、ＨＴＭＬタグが除去され、文字単位に分割された前記テキスト中の各文字の直前および直後にＨＴＭＬタグがあったかどうかを表すＨＴＭＬタグ情報を、ＨＴＭＬタグ情報生成部１３により、ＨＴＭＬタグ記憶部１２に記憶されたＨＴＭＬタグとその出現位置に基づいて生成し、これを当該テキスト中の各文字の表記とともに素性として用いて、ＢＩＯ判定部１５により、モデル記憶部１４に記憶されたモデルを用いて顔文字を構成する最初の文字“Ｂ”、顔文字を構成する２番目以降の文字“Ｉ”、顔文字以外の文字“Ｏ”のいずれに当たるかを機械学習で判定する。
【選択図】図６

Description

本発明は、ＨＴＭＬソーステキスト等のＨＴＭＬタグを含むテキスト中の顔文字を検出する技術に関する。

顔文字とは、テキスト中で使用可能な文字を組み合わせて様々な感情等に対応する擬似的な人の表情を表すようにしたもので、パーソナルコンピュータや携帯電話における電子メールなどのテキストベースのコミュニケーションツールにおいて、書き手（送信側）の感情等を読み手（受信側）に伝える手段として用いられることが多い。例えば、「今日はとっても楽しかったです。(^^)明日も楽しみ！」というテキスト中の文字列「(^^)」が顔文字であり、この場合、「喜び」の感情を表している。

従来、テキスト中の顔文字を検出する技術としては、既存のＨＴＭＬタグ除去技術、形態素解析技術を利用してテキスト中の各文字が属する形態素の品詞を抽出し、これを当該テキスト中の各文字の表記とともに素性として用いて、顔文字を構成する文字列の最初の文字を意味する“Ｂ”、顔文字を構成する文字列の２番目以降の文字を意味する“Ｉ”、顔文字以外の文字を意味する“Ｏ”（以下、これらを顔文字タグと呼ぶ。）のいずれに当たるかを機械学習で推定（判定）する方法があった（非特許文献１参照）。例えば、「今日はとっても楽しかったです。(^^) 明日も楽しみ！ 」というテキストにおいて、文字「(」が顔文字タグ“Ｂ”であることを推定する場合は、図１に示すような太線内の情報を素性として利用していた。

図２は前述した従来の顔文字検出技術にかかる装置の一例を示すもので、ＨＴＭＬタグ除去部１、形態素解析部２、文字分割部３、形態素品詞抽出部４、モデル記憶部５およびＢＩＯ判定部６からなる。

ＨＴＭＬタグ除去部１では、既存のＨＴＭＬタグ除去技術により、入力されたテキストからＨＴＭＬタグを除去する。例えば、入力されたテキストが「今日はとっても楽しかったです。(^^) 明日も楽しみ！ 」の場合、ＨＴＭＬタグ“ ”が除かれ、「今日はとっても楽しかったです。(^^)明日も楽しみ！」となる。

形態素解析部２では、既存の形態素解析技術により、ＨＴＭＬタグ除去部１でＨＴＭＬタグが除去されたテキストを単語に区切り、さらに各単語に品詞を付与する。例えば、ＨＴＭＬタグ除去後のテキストが「今日はとっても楽しかったです。(^^)明日も楽しみ！」の場合、区切り記号を“/”、品詞を“［品詞］”で表すと、「今日［名詞］/は［助詞］/とっても［副詞］/楽し［形容詞］/かった［形容詞接尾辞］/です［助動詞］/。［記号-句点］/(［記号-括弧開］/^［記号-その他］/^［記号-その他］/)［記号-括弧閉］/明日［名詞］/も［助詞］/楽しみ［名詞］/！［記号-その他］」となる。

文字分割部３では、ＨＴＭＬタグ除去部１でＨＴＭＬタグが除去されたテキストを文字単位（文字コード単位）に分割する。例えば、前記同様、ＨＴＭＬタグ除去後のテキストが「今日はとっても楽しかったです。(^^)明日も楽しみ！」の場合、区切り記号を“/”で表すと、「今/日/は/と/っ/て/も/楽/し/か/っ/た/で/す/。/(/^/^/)/明/日/も/楽/し/み/！」となる。

形態素品詞抽出部４では、形態素解析部２での結果と文字分割部３での結果とを入力とし、入力されたテキスト中の各文字の表記および各文字が属する形態素の品詞を抽出する。例えば、形態素解析部２での結果が「今日［名詞］/は［助詞］/とっても［副詞］/楽し［形容詞］/かった［形容詞接尾辞］/です［助動詞］/。［記号-句点］/(［記号-括弧開］/^［記号-その他］/^［記号-その他］/)［記号-括弧閉］/明日［名詞］/も［助詞］/楽しみ［名詞］/！［記号-その他］」であり、文字分割部３での結果が「今/日/は/と/っ/て/も/楽/し/か/っ/た/で/す/。/(/^/^/)/明/日/も/楽/し/み/！」である場合、図３に示すような結果が得られる。

モデル記憶部５では、予め機械学習により生成した、少なくともテキスト中の各文字の表記および各文字が属する形態素の品詞を素性、詳細には図１に示したようにテキスト中の各文字のその文字を含む前後ｎ（ここではｎ＝３）文字の表記、それらの形態素の品詞および前ｎ文字についてのＢＩＯ判定結果を素性として、当該テキスト中の各文字が顔文字タグ“Ｂ”、“Ｉ”、“Ｏ”のいずれに当たるかを判定するためのモデルを記憶している。但し、使用する機械学習によっては、前ｎ文字についてのＢＩＯ判定結果を明示的に与える必要はない。

ＢＩＯ判定部６では、形態素品詞抽出部４での結果を入力とし、モデル記憶部５に記憶されたモデルを用いて、テキスト中の各文字について、その先頭から順に顔文字タグ“Ｂ”、“Ｉ”、“Ｏ”のいずれに当たるかを判定し、顔文字タグ“Ｂ”および“Ｉ”に対応する文字列を検出結果として出力する。例えば、図３に示した結果が入力された場合、図４に示すように、先頭から順に、各文字のその文字を含む前後ｎ（ここではｎ＝３）文字の表記、それらの形態素の品詞および前ｎ文字についてのＢＩＯ判定結果を素性としてモデル記憶部５に記憶されたモデルに入力してＢＩＯ判定結果を得て、顔文字タグ“Ｂ”および“Ｉ”と判定された文字列「(^^)」を、例えばＸＭＬ形式「<face>(^^)</face>」で出力する。

モデル記憶部５に記憶するモデルは、テキスト集合の各テキストに対し、前記ＨＴＭＬタグ除去部１、形態素解析部２、文字分割部３、形態素品詞抽出部４での処理を行い、その結果として得られる、ＨＴＭＬタグが除去され、文字単位に分割されたテキスト中の各文字の表記および各文字が属する形態素の品詞の情報と、前記テキスト中の各文字について前記顔文字タグ“Ｂ”、“Ｉ”、“Ｏ”のいずれかに当たるかを人手により判断した結果としての情報とを用い、既存の機械学習によって予め作成したものである。

この際、使用する機械学習としてはどのようなものでも良いが、系列ラベリング問題のためのものが望ましい。系列ラベリング問題とは、与えられた入力トークン列ｘ＝（ｘ１，ｘ２，…ｘＮ）に対して、適切な出力ラベル列ｙ＝（ｙ１，ｙ２，…ｙＮ）を対応づける問題である。
田中裕紀、高村大也、奥村学、「文字ベースのコミュニケーションにおける顔文字に関する研究」、言語処理学会第１０回年次大会、Ｄ４−３、２００４

ところで、ＨＴＭＬソーステキストの場合、顔文字は“ ”などのＨＴＭＬタグの直前に出現することが多い。例えば、「今日はとっても楽しかったです。(^^) 」というテキストでは、顔文字「(^^)」はＨＴＭＬタグ“ ”の直前に出現している。

前述した従来の顔文字検出技術では、入力されたテキストにＨＴＭＬタグが含まれている場合、前処理でＨＴＭＬタグを除去し、その情報を全く利用していないため、適切に顔文字を検出できないという問題があった。

本発明の目的は、テキストからの顔文字検出において、ＨＴＭＬソーステキストにおける顔文字の出現傾向を捉え、検出精度を向上することにある。

本発明では、前記目的を達成するため、ＨＴＭＬタグを含むテキスト中のＨＴＭＬタグをその出現位置とともに検出して記憶しておき、一方、前記テキストからＨＴＭＬタグを除去するとともに文字単位に分割し、該ＨＴＭＬタグが除去され、文字単位に分割された前記テキスト中の各文字の直前および直後にＨＴＭＬタグがあったかどうか、あった場合はどのようなＨＴＭＬタグかを表すＨＴＭＬタグ情報を、前記記憶した前記テキストにおけるＨＴＭＬタグの出現位置に基づいて生成し、これを当該テキスト中の各文字の表記とともに素性として用いて、顔文字を構成する文字列の最初の文字を意味する“Ｂ”、顔文字を構成する文字列の２番目以降の文字を意味する“Ｉ”、顔文字以外の文字を意味する“Ｏ”のいずれに当たるかを機械学習で推定（判定）することを特徴とする。例えば、「今日はとっても楽しかったです。(^^) 明日も楽しみ！ 」というテキストにおいて、文字「(」が顔文字タグ“Ｂ”であることを推定する場合は、図５に示すような太線内の情報を素性として利用する。

本発明によれば、テキスト中の各文字の表記とともにその直前および直後にＨＴＭＬタグがあったかどうかを表すＨＴＭＬタグ情報を素性として機械学習で推定（判定）するため、ＨＴＭＬソーステキストにおける顔文字の出現傾向を捉え、検出精度を向上することが可能となる。

図６は本発明の顔文字検出装置の実施の形態の一例を示すもので、図中、従来例と同一構成部分は同一符号をもって表す。即ち、１はＨＴＭＬタグ除去部、３は文字分割部、１１はＨＴＭＬタグ検出部、１２はＨＴＭＬタグ記憶部、１３はＨＴＭＬタグ情報生成部、１４はモデル記憶部、１５はＢＩＯ判定部である。

ＨＴＭＬタグ検出部１１は、ＨＴＭＬタグを含むテキストからＨＴＭＬタグを検出し、該検出したＨＴＭＬタグの先頭の文字位置を出現位置として取得する。ここで、ＨＴＭＬタグを検出する具体的な方法としては、テキスト中で使用されるＨＴＭＬタグの集合を格納したリストを予め用意しておき、入力されたテキストに対してリスト内のＨＴＭＬタグ毎にパターンマッチングを行うことでできる。また、入力されたテキストはそのままＨＴＭＬタグ除去部１へ出力される。

ＨＴＭＬタグ記憶部１２は、ＨＴＭＬタグ検出部１１で検出されたＨＴＭＬタグを前記テキストにおけるその出現位置とともに記憶する。また、この際、後述するＨＴＭＬタグ除去後のテキストにおける文字位置との整合を図るため、検出したＨＴＭＬタグの文字数を併せて記憶しておくものとする。なお、ＨＴＭＬタグの文字数は、パターンマッチングの際にＨＴＭＬタグと一致した文字列の先頭および末尾の文字位置の差から求める外、前述したＨＴＭＬタグのリストにおいて予め各ＨＴＭＬタグに対応づけてその文字数を格納しておき、ここから読み出すようにしても良い。

ＨＴＭＬタグ情報生成部１３は、ＨＴＭＬタグ除去部１でＨＴＭＬタグが除去され、文字分割部３で文字単位（文字コード単位）に分割されたテキストと、ＨＴＭＬタグ記憶部１２に記憶されたテキスト中のＨＴＭＬタグ、その出現位置および文字数とを入力として、ＨＴＭＬタグが除去され、文字単位に分割されたテキスト中の各文字の直前および直後にＨＴＭＬタグがあったかどうかを判定し、あった場合はそのＨＴＭＬタグを、また、なかった場合は無しを意味するＨＴＭＬタグ（ここではＮＵＬＬ）をＨＴＭＬタグ情報として、当該テキスト中の各文字の表記に対応させて出力する。

詳細には、ＨＴＭＬタグが除去され、文字単位に分割されたテキスト中の一の文字の直前の文字位置および直後の文字位置、実際には当該文字の文字位置およびこれに１を加えた文字位置と、前記ＨＴＭＬタグ記憶部１２に記憶された前記テキスト中の各ＨＴＭＬタグの出現位置（タグの先頭の文字位置）とを順次比較し、一致する場合はそのＨＴＭＬタグをＨＴＭＬタグ情報として出力し、また、一致しない場合はタグ無しを意味するＨＴＭＬタグ（ＮＵＬＬ）をＨＴＭＬタグ情報として出力し、これをテキスト中の全ての文字について繰り返し行う。但し、この際、テキスト中で最初に出現したＨＴＭＬタグの出現位置はＨＴＭＬタグ記憶部１２に記憶された値そのものを用いるが、２つ目以降に出現したＨＴＭＬタグの出現位置については、ＨＴＭＬタグ記憶部１２に記憶された値から、それ以前に出現したＨＴＭＬタグの文字数の和を差し引いた値を用いるものとする。

モデル記憶部１４は、予め機械学習により生成した、少なくともテキスト中の各文字の表記並びにその直前および直後のＨＴＭＬタグ情報を素性、詳細には図５に示したようにテキスト中の各文字のその文字を含む前後ｎ（ここではｎ＝３）文字の表記、それらの直前および直後のＨＴＭＬタグ情報、更には前ｎ文字についてのＢＩＯ判定結果を素性として、当該テキスト中の各文字が顔文字タグ“Ｂ”、“Ｉ”、“Ｏ”のいずれに当たるかを判定するためのモデルを記憶している。但し、使用する機械学習によっては、前ｎ文字についてのＢＩＯ判定結果を明示的に与える必要はない。

ＢＩＯ判定部１５は、ＨＴＭＬタグ情報生成部１３での結果を入力とし、モデル記憶部１４に記憶されたモデルを用いて、テキスト中の各文字について、その先頭から順に顔文字タグ“Ｂ”、“Ｉ”、“Ｏ”のいずれに当たるかを判定し、顔文字タグ“Ｂ”および“Ｉ”に対応する文字列を検出結果として出力、例えば顔文字の開始タグ“<face>”と顔文字の終了タグ“</face>”との間に顔文字タグ“Ｂ”および“Ｉ”に対応する文字列「ｘｘｘｘ」を記述したＸＭＬ形式「<face>ｘｘｘｘ</face>」で出力する。

モデル記憶部１４に記憶するモデルは、テキスト集合の各テキストに対し、前記ＨＴＭＬタグ検出部１１、ＨＴＭＬタグ記憶部１２、ＨＴＭＬタグ除去部１、文字分割部３、ＨＴＭＬタグ情報生成部１３での処理を行い、その結果として得られる、ＨＴＭＬタグが除去され、文字単位に分割されたテキスト中の各文字の表記並びにその直前および直後のＨＴＭＬタグ情報と、前記テキスト中の各文字について前記顔文字タグ“Ｂ”、“Ｉ”、“Ｏ”のいずれかに当たるかを人手により判断した結果としての情報とを用い、既存の機械学習によって予め作成したものである。この際、使用する機械学習としてはどのようなものでも良いが、系列ラベリング問題のためのものが望ましい。

図７は本発明の顔文字検出装置における処理の流れを示すもので、以下、例を挙げてその動作を詳細に説明する。

ＨＴＭＬタグ検出部１１に入力されたテキスト（ＨＴＭＬタグを含むテキスト）は、当該テキスト中のＨＴＭＬタグが検出され、その出現位置および文字数が該検出されたＨＴＭＬタグとともにＨＴＭＬタグ記憶部１２に出力されて記憶される（ｓ１）。例えば、入力テキストが「今日はとっても楽しかったです。(^^) 明日も楽しみ！ 」であれば、１つ目のＨＴＭＬタグ“ ”の先頭の文字位置は「２０」であり、２つ目のＨＴＭＬタグ“ ”の先頭の文字位置は「３１」であり、文字数はいずれも「４」であるから、図８に示すような結果が得られる。なお、図８中の「タグ番号」とは、後述する説明のために出現順に単純に付与した、テキスト中のＨＴＭＬタグの識別番号である。また、入力されたテキストはそのままＨＴＭＬタグ除去部１へ出力される。

ＨＴＭＬタグ除去部１に入力されたテキストは、既存のＨＴＭＬタグ除去技術により、当該テキスト中のＨＴＭＬタグが除去され、文字分割部３に出力される（ｓ２）。例えば、入力テキストが「今日はとっても楽しかったです。(^^) 明日も楽しみ！ 」であれば、ＨＴＭＬタグ“ ”が除かれ、「今日はとっても楽しかったです。(^^)明日も楽しみ！」となる。

文字分割部３では、ＨＴＭＬタグ除去部１でＨＴＭＬタグが除去されたテキストを文字単位（文字コード単位）に分割し、ＨＴＭＬタグ情報生成部１３に出力する（ｓ３）。例えば、ＨＴＭＬタグ除去後のテキストが「今日はとっても楽しかったです。(^^)明日も楽しみ！」の場合、区切り記号を“/”で表すと、「今/日/は/と/っ/て/も/楽/し/か/っ/た/で/す/。/(/^/^/)/明/日/も/楽/し/み/！」となる。

ＨＴＭＬタグ情報生成部１３では、ＨＴＭＬタグ記憶部１２に記憶されたテキスト中のＨＴＭＬタグ、その出現位置および文字数に基づいて、ＨＴＭＬタグ除去部１でＨＴＭＬタグが除去され、文字分割部３で文字単位に分割されたテキスト中の各文字について、その直前および直後にＨＴＭＬタグがあったかどうかを判定し、あった場合はそのＨＴＭＬタグを、また、なかった場合は無しを意味するＨＴＭＬタグ（ＮＵＬＬ）をＨＴＭＬタグ情報として、当該テキスト中の各文字の表記に対応させてＢＩＯ判定部１５に出力する（ｓ４）。

例えば、ＨＴＭＬタグ記憶部１２に記憶されたテキスト中のＨＴＭＬタグ、その出現位置および文字数が図８に示したものであり、ＨＴＭＬタグが除去され、文字単位に分割されたテキストが「今/日/は/と/っ/て/も/楽/し/か/っ/た/で/す/。/(/^/^/)/明/日/も/楽/し/み/！」であった場合、図９に示すような結果が得られる。

即ち、文字位置「１９」の文字「)」の直後の文字位置、つまり「１９」に１を加えた文字位置「２０」と、タグ番号１のＨＴＭＬタグの出現位置「２０」とが一致するため、文字位置「１９」の文字「)」の直後のＨＴＭＬタグ情報は、当該タグ番号１のＨＴＭＬタグ“ ”となる。同様に、文字位置「２０」の文字「明」の直前の文字位置、つまり当該文字「明」の文字位置「２０」と、タグ番号１のＨＴＭＬタグの出現位置「２０」とが一致するため、文字位置「２０」の文字「明」の直前のＨＴＭＬタグ情報も、当該タグ番号１のＨＴＭＬタグ“ ”となる。一方、文字位置「２６」の文字「！」の直後の文字位置、つまり「２６」に１を加えた文字位置「２７」と、タグ番号２のＨＴＭＬタグの出現位置、ここでは「３１」からそれ以前に出現したタグ番号１のＨＴＭＬタグの文字数「４」を差し引いた値である「２７」とが一致するため、文字位置「２６」の文字「！」の直後のＨＴＭＬタグ情報は、当該タグ番号２のＨＴＭＬタグ“ ”となる。

ＢＩＯ判定部１５では、ＨＴＭＬタグ情報生成部１３での結果を入力とし、モデル記憶部１４に記憶されたモデルを用いて、テキスト中の各文字について、その先頭から順に顔文字タグ“Ｂ”、“Ｉ”、“Ｏ”のいずれに当たるかを判定し、顔文字タグ“Ｂ”および“Ｉ”に対応する文字列を検出結果として出力する（ｓ５）。例えば、図９に示した結果が入力された場合、図１０に示すように、先頭から順に、各文字のその文字を含む前後ｎ（ここではｎ＝３）文字の表記、それらの直前および直後のＨＴＭＬタグ情報、更には前ｎ文字についてのＢＩＯ判定結果を素性としてモデル記憶部１４に記憶されたモデルに入力してＢＩＯ判定結果を得て、顔文字タグ“Ｂ”および“Ｉ”と判定された文字列「(^^)」をＸＭＬ形式「<face>(^^)</face>」で出力する。

なお、本発明は、周知のコンピュータに媒体もしくは通信回線を介して、図６の構成図に示された機能を実現するプログラムあるいは図７のフローチャートに示された手順を備えるプログラムをインストールすることによっても実現可能である。

本発明によってテキスト中の顔文字を検出し、これを削除することで、当該テキストに対する形態素解析の精度を向上させることが可能となる。

従来の顔文字検出技術における素性の説明図従来の顔文字検出装置の一例を示す構成図形態素品詞抽出結果の一例を示す説明図従来の顔文字検出技術によるＢＩＯ判定のようすを示す説明図本発明の顔文字検出技術における素性の説明図本発明の顔文字検出装置の実施の形態の一例を示す構成図本発明の顔文字検出装置における処理の流れを示すフローチャートＨＴＭＬタグ検出結果の一例を示す説明図ＨＴＭＬタグ情報生成結果の一例を示す説明図本発明の顔文字検出技術によるＢＩＯ判定のようすを示す説明図

符号の説明

１：ＨＴＭＬタグ除去部、３：文字分割部、１１：ＨＴＭＬタグ検出部、１２：ＨＴＭＬタグ記憶部、１３：ＨＴＭＬタグ情報生成部、１４：モデル記憶部、１５：ＢＩＯ判定部。

Claims

ＨＴＭＬタグを含むテキスト中の顔文字を検出する装置であって、
テキスト中のＨＴＭＬタグをその出現位置とともに検出するＨＴＭＬタグ検出部と、
検出されたＨＴＭＬタグを前記テキストにおけるその出現位置とともに記憶するＨＴＭＬタグ記憶部と、
前記テキストからＨＴＭＬタグを除去するＨＴＭＬタグ除去部と、
ＨＴＭＬタグが除去された前記テキストを文字単位に分割する文字分割部と、
ＨＴＭＬタグが除去され、文字単位に分割された前記テキスト中の各文字の直前および直後にＨＴＭＬタグがあったかどうか、あった場合はどのようなＨＴＭＬタグかを表すＨＴＭＬタグ情報を、前記ＨＴＭＬタグ記憶部に記憶された前記テキスト中のＨＴＭＬタグとその出現位置に基づいて生成するＨＴＭＬタグ情報生成部と、
少なくともテキスト中の各文字の表記並びにその直前および直後のＨＴＭＬタグ情報を素性として、当該テキスト中の各文字が顔文字を構成する文字列の最初の文字を意味する“Ｂ”、顔文字を構成する文字列の２番目以降の文字を意味する“Ｉ”、顔文字以外の文字を意味する“Ｏ”のいずれに当たるかを判定するためのモデルを記憶するモデル記憶部と、
ＨＴＭＬタグが除去され、文字単位に分割された前記テキスト中の各文字の表記並びにその直前および直後のＨＴＭＬタグ情報を入力とし、前記モデル記憶部に記憶されたモデルを用いて、前記テキスト中の各文字が前記“Ｂ”、“Ｉ”、“Ｏ”のいずれに当たるかを判定するＢＩＯ判定部とを備えた
ことを特徴とする顔文字検出装置。
ＨＴＭＬタグ情報生成は、
ＨＴＭＬタグが除去され、文字単位に分割された前記テキスト中の各文字の直前および直後の位置と、前記ＨＴＭＬタグ記憶部に記憶された前記テキストにおけるＨＴＭＬタグの出現位置とを比較し、一致する場合はそのＨＴＭＬタグをＨＴＭＬタグ情報として、また、一致しない場合はタグ無しを意味するＨＴＭＬタグをＨＴＭＬタグ情報として、当該テキスト中の各文字の表記に対応させて出力することで行う
ことを特徴とする請求項１に記載の顔文字検出装置。
ＨＴＭＬタグを含むテキスト中の顔文字を検出する方法であって、
ＨＴＭＬタグ検出部が、テキスト中のＨＴＭＬタグをその出現位置とともに検出し、ＨＴＭＬタグ記憶部に記憶するステップと、
ＨＴＭＬタグ除去部が、前記テキストからＨＴＭＬタグを除去するステップと、
文字分割部が、ＨＴＭＬタグが除去された前記テキストを文字単位に分割するステップと、
ＨＴＭＬタグ情報生成部が、ＨＴＭＬタグが除去され、文字単位に分割された前記テキスト中の各文字の直前および直後にＨＴＭＬタグがあったかどうか、あった場合はどのようなＨＴＭＬタグかを表すＨＴＭＬタグ情報を、前記ＨＴＭＬタグ記憶部に記憶された前記テキスト中のＨＴＭＬタグとその出現位置に基づいて生成するステップと、
ＢＩＯ判定部が、ＨＴＭＬタグが除去され、文字単位に分割された前記テキスト中の各文字の表記並びにその直前および直後のＨＴＭＬタグ情報を入力とし、少なくともテキスト中の各文字の表記並びにその直前および直後のＨＴＭＬタグ情報を素性として、当該テキスト中の各文字が顔文字を構成する文字列の最初の文字を意味する“Ｂ”、顔文字を構成する文字列の２番目以降の文字を意味する“Ｉ”、顔文字以外の文字を意味する“Ｏ”のいずれに当たるかを判定するためのモデルを用いて、前記テキスト中の各文字が前記“Ｂ”、“Ｉ”、“Ｏ”のいずれに当たるかを判定するステップとを含む
ことを特徴とする顔文字検出方法。
ＨＴＭＬタグ情報生成は、
ＨＴＭＬタグが除去され、文字単位に分割された前記テキスト中の各文字の直前および直後の位置と、前記ＨＴＭＬタグ記憶部に記憶された前記テキストにおけるＨＴＭＬタグの出現位置とを比較し、一致する場合はそのＨＴＭＬタグをＨＴＭＬタグ情報として、また、一致しない場合はタグ無しを意味するＨＴＭＬタグをＨＴＭＬタグ情報として、当該テキスト中の各文字の表記に対応させて出力することで行う
ことを特徴とする請求項３に記載の顔文字検出方法。
コンピュータを、請求項１または２に記載の顔文字検出装置の各手段として機能させるためのプログラム。
コンピュータに、請求項３または４に記載の顔文字検出方法の各処理ステップを実行させるためのプログラム。
請求項５または６に記載のプログラムを記録したことを特徴とするコンピュータ読み取り可能な記録媒体。