JP5013539B2

JP5013539B2 - 顔文字検出装置、その方法、プログラム及び記録媒体

Info

Publication number: JP5013539B2
Application number: JP2008270559A
Authority: JP
Inventors: 徹平野; 義博松尾
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2008-10-21
Filing date: 2008-10-21
Publication date: 2012-08-29
Anticipated expiration: 2028-10-21
Also published as: JP2010102371A

Description

本発明は、ＨＴＭＬソーステキスト等のＨＴＭＬタグを含むテキスト中の顔文字を検出する技術に関する。

顔文字とは、テキスト中で使用可能な文字を組み合わせて様々な感情等に対応する擬似的な人の表情を表すようにしたもので、パーソナルコンピュータや携帯電話における電子メールなどのテキストベースのコミュニケーションツールにおいて、書き手（送信側）の感情等を読み手（受信側）に伝える手段として用いられることが多い。例えば、「今日はとっても楽しかったです。(^^)明日も楽しみ！」というテキスト中の文字列「(^^)」が顔文字であり、この場合、「喜び」の感情を表している。

従来、テキスト中の顔文字を検出する技術としては、既存のＨＴＭＬタグ除去技術、形態素解析技術を利用してテキスト中の各文字が属する形態素の品詞を抽出し、これを当該テキスト中の各文字の表記とともに素性として用いて、顔文字を構成する文字列の最初の文字を意味する“Ｂ”、顔文字を構成する文字列の２番目以降の文字を意味する“Ｉ”、顔文字以外の文字を意味する“Ｏ”（以下、これらを顔文字タグと呼ぶ。）のいずれに当たるかを機械学習で推定（判定）する方法があった（非特許文献１参照）。例えば、「今日はとっても楽しかったです。(^^) 明日も楽しみ！ 」というテキストにおいて、文字「(」が顔文字タグ“Ｂ”であることを推定する場合は、図１に示すような太線内の情報を素性として利用していた。

図２は前述した従来の顔文字検出技術にかかる装置の一例を示すもので、ＨＴＭＬタグ除去部１、形態素解析部２、文字分割部３、形態素品詞抽出部４、モデル記憶部５およびＢＩＯ判定部６からなる。

ＨＴＭＬタグ除去部１では、既存のＨＴＭＬタグ除去技術により、入力されたテキストからＨＴＭＬタグを除去する。例えば、入力されたテキストが「今日はとっても楽しかったです。(^^) 明日も楽しみ！ 」の場合、ＨＴＭＬタグ“ ”が除かれ、「今日はとっても楽しかったです。(^^)明日も楽しみ！」となる。

形態素解析部２では、既存の形態素解析技術により、ＨＴＭＬタグ除去部１でＨＴＭＬタグが除去されたテキストを単語に区切り、さらに各単語に品詞を付与する。例えば、ＨＴＭＬタグ除去後のテキストが「今日はとっても楽しかったです。(^^)明日も楽しみ！」の場合、区切り記号を“/”、品詞を“［品詞］”で表すと、「今日［名詞］/は［助詞］/とっても［副詞］/楽し［形容詞］/かった［形容詞接尾辞］/です［助動詞］/。［記号-句点］/(［記号-括弧開］/^［記号-その他］/^［記号-その他］/)［記号-括弧閉］/明日［名詞］/も［助詞］/楽しみ［名詞］/！［記号-その他］」となる。

文字分割部３では、ＨＴＭＬタグ除去部１でＨＴＭＬタグが除去されたテキストを文字単位（文字コード単位）に分割する。例えば、前記同様、ＨＴＭＬタグ除去後のテキストが「今日はとっても楽しかったです。(^^)明日も楽しみ！」の場合、区切り記号を“/”で表すと、「今/日/は/と/っ/て/も/楽/し/か/っ/た/で/す/。/(/^/^/)/明/日/も/楽/し/み/！」となる。

形態素品詞抽出部４では、形態素解析部２での結果と文字分割部３での結果とを入力とし、入力されたテキスト中の各文字の表記および各文字が属する形態素の品詞を抽出する。例えば、形態素解析部２での結果が「今日［名詞］/は［助詞］/とっても［副詞］/楽し［形容詞］/かった［形容詞接尾辞］/です［助動詞］/。［記号-句点］/(［記号-括弧開］/^［記号-その他］/^［記号-その他］/)［記号-括弧閉］/明日［名詞］/も［助詞］/楽しみ［名詞］/！［記号-その他］」であり、文字分割部３での結果が「今/日/は/と/っ/て/も/楽/し/か/っ/た/で/す/。/(/^/^/)/明/日/も/楽/し/み/！」である場合、図３に示すような結果が得られる。

モデル記憶部５では、予め機械学習により生成した、少なくともテキスト中の各文字の表記および各文字が属する形態素の品詞を素性、詳細には図１に示したようにテキスト中の各文字のその文字を含む前後ｎ（ここではｎ＝３）文字の表記、それらの形態素の品詞および前ｎ文字についてのＢＩＯ判定結果を素性として、当該テキスト中の各文字が顔文字タグ“Ｂ”、“Ｉ”、“Ｏ”のいずれに当たるかを判定するためのモデルを記憶している。但し、使用する機械学習によっては、前ｎ文字についてのＢＩＯ判定結果を明示的に与える必要はない。

ＢＩＯ判定部６では、形態素品詞抽出部４での結果を入力とし、モデル記憶部５に記憶されたモデルを用いて、テキスト中の各文字について、その先頭から順に顔文字タグ“Ｂ”、“Ｉ”、“Ｏ”のいずれに当たるかを判定し、顔文字タグ“Ｂ”および“Ｉ”に対応する文字列を検出結果として出力する。例えば、図３に示した結果が入力された場合、図４に示すように、先頭から順に、各文字のその文字を含む前後ｎ（ここではｎ＝３）文字の表記、それらの形態素の品詞および前ｎ文字についてのＢＩＯ判定結果を素性としてモデル記憶部５に記憶されたモデルに入力してＢＩＯ判定結果を得て、顔文字タグ“Ｂ”および“Ｉ”と判定された文字列「(^^)」を、例えばＸＭＬ形式「<face>(^^)</face>」で出力する。

モデル記憶部５に記憶するモデルは、テキスト集合の各テキストに対し、前記ＨＴＭＬタグ除去部１、形態素解析部２、文字分割部３、形態素品詞抽出部４での処理を行い、その結果として得られる、ＨＴＭＬタグが除去され、文字単位に分割されたテキスト中の各文字の表記および各文字が属する形態素の品詞の情報と、前記テキスト中の各文字について前記顔文字タグ“Ｂ”、“Ｉ”、“Ｏ”のいずれかに当たるかを人手により判断した結果としての情報とを用い、既存の機械学習によって予め作成したものである。

この際、使用する機械学習としてはどのようなものでも良いが、系列ラベリング問題のためのものが望ましい。系列ラベリング問題とは、与えられた入力トークン列ｘ＝（ｘ１，ｘ２，…ｘＮ）に対して、適切な出力ラベル列ｙ＝（ｙ１，ｙ２，…ｙＮ）を対応づける問題である。
田中裕紀、高村大也、奥村学、「文字ベースのコミュニケーションにおける顔文字に関する研究」、言語処理学会第１０回年次大会、Ｄ４−３、２００４

ところで、ＨＴＭＬソーステキストの場合、ＨＴＭＬタグが顔文字の途中に出現することは非常に少ない。つまり、顔文字はＨＴＭＬタグの出現位置を跨いで繋がらない、言い換えればＨＴＭＬタグの直後の文字は“Ｉ”にならないという傾向を有する。例えば、「今日はとっても楽しかったです。(^^) 明日も楽しみ！ 」というテキストでは、顔文字「(^^)」の途中にはＨＴＭＬタグが存在しない。

前述した従来の顔文字検出技術では、入力されたテキストにＨＴＭＬタグが含まれている場合、前処理でＨＴＭＬタグを除去し、その情報を全く利用していないため、適切に顔文字を検出できないという問題があった。

本発明の目的は、テキストからの顔文字検出において、ＨＴＭＬソーステキストにおける顔文字の出現傾向を捉え、検出精度を向上することにある。

本発明では、前記目的を達成するため、ＨＴＭＬタグを含むテキスト中のＨＴＭＬタグの出現位置を検出して記憶しておき、一方、前記テキストからＨＴＭＬタグを除去するとともに文字単位に分割し、該ＨＴＭＬタグが除去され、文字単位に分割された前記テキストを、前記記憶した前記テキストにおけるＨＴＭＬタグの出現位置で複数の系列に分割し、分割後の前記テキスト中の各文字の表記を少なくとも素性として用いて、顔文字を構成する文字列の最初の文字を意味する“Ｂ”、顔文字を構成する文字列の２番目以降の文字を意味する“Ｉ”、顔文字以外の文字を意味する“Ｏ”のいずれに当たるかを機械学習で推定（判定）することを特徴とする。例えば、「今日はとっても楽しかったです。(^^) 明日も楽しみ！ 」というテキストにおいて、文字「(」が顔文字タグ“Ｂ”であることを推定する場合は、図５に示すような太線内の情報を素性として利用する。

本発明によれば、ＨＴＭＬタグが除去され、文字単位に分割されたテキストを、ＨＴＭＬタグの出現位置で複数の系列に分割した上で、少なくともテキスト中の各文字の表記を素性として機械学習で推定（判定）するため、顔文字はＨＴＭＬタグを跨いで繋がらない、言い換えればＨＴＭＬタグの直後の文字は“Ｉ”にならないという、ＨＴＭＬソーステキストにおける顔文字の出現傾向を捉え、検出精度を向上することが可能となる。

＜第１の実施の形態＞
図６は本発明の顔文字検出装置の第１の実施の形態を示すもので、図中、従来例と同一構成部分は同一符号をもって表す。即ち、１はＨＴＭＬタグ除去部、３は文字分割部、１１はＨＴＭＬタグ検出部、１２はＨＴＭＬタグ記憶部、１３はテキスト分割部、１４はモデル記憶部、１５はＢＩＯ判定部である。

ＨＴＭＬタグ検出部１１は、ＨＴＭＬタグを含むテキストからＨＴＭＬタグを検出し、該検出したＨＴＭＬタグの先頭の文字位置を出現位置として取得する。ここで、ＨＴＭＬタグを検出する具体的な方法としては、テキスト中で使用されるＨＴＭＬタグの集合を格納したリストを予め用意しておき、入力されたテキストに対してリスト内のＨＴＭＬタグ毎にパターンマッチングを行うことでできる。また、入力されたテキストはそのままＨＴＭＬタグ除去部１へ出力される。

ＨＴＭＬタグ記憶部１２は、ＨＴＭＬタグ検出部１１で検出されたＨＴＭＬタグを前記テキストにおけるその出現位置とともに記憶する。また、この際、後述するＨＴＭＬタグ除去後のテキストにおける文字位置との整合を図るため、検出したＨＴＭＬタグの文字数を併せて記憶しておくものとする。なお、ＨＴＭＬタグの文字数は、パターンマッチングの際にＨＴＭＬタグと一致した文字列の先頭および末尾の文字位置の差から求める外、前述したＨＴＭＬタグのリストにおいて予め各ＨＴＭＬタグに対応づけてその文字数を格納しておき、ここから読み出すようにしても良い。

テキスト分割部１３は、ＨＴＭＬタグ除去部１でＨＴＭＬタグが除去され、文字分割部３で文字単位（文字コード単位）に分割されたテキストと、ＨＴＭＬタグ記憶部１２に記憶されたテキスト中のＨＴＭＬタグの出現位置および文字数とを入力として、ＨＴＭＬタグが除去され、文字単位に分割されたテキストを、当該テキスト中のＨＴＭＬタグの出現位置で複数の系列に分割して出力する。

詳細には、ＨＴＭＬタグが除去され、文字単位に分割されたテキスト中の一の文字の文字位置と、前記ＨＴＭＬタグ記憶部１２に記憶された前記テキスト中の各ＨＴＭＬタグの出現位置（タグの先頭の文字位置）とを順次比較し、一致する場合はその一つ前の文字位置までの文字列を一つの系列として出力し、これをテキスト中の全ての文字について繰り返し行う。但し、この際、テキスト中で最初に出現したＨＴＭＬタグの出現位置はＨＴＭＬタグ記憶部１２に記憶された値そのものを用いるが、２つ目以降に出現したＨＴＭＬタグの出現位置については、ＨＴＭＬタグ記憶部１２に記憶された値から、それ以前に出現したＨＴＭＬタグの文字数の和を差し引いた値を用いるものとする。また、テキスト中の最初の文字の文字位置で一致した（つまり、テキストの文頭にＨＴＭＬタグがある）場合は何も出力せず、最後の文字の文字位置まで一致しない（つまり、テキストの文末にＨＴＭＬタグがある）場合はそれまでの文字列を一つの系列として出力するものとする。

モデル記憶部１４は、予め機械学習により生成した、少なくともテキスト中の各文字の表記を素性、詳細には図５に示したようにテキスト中の各文字のその文字を含む前後ｎ（ここではｎ＝３）文字の表記および前ｎ文字についてのＢＩＯ判定結果を素性として、当該テキスト中の各文字が顔文字タグ“Ｂ”、“Ｉ”、“Ｏ”のいずれに当たるかを判定するためのモデルを記憶している。但し、使用する機械学習によっては、前ｎ文字についてのＢＩＯ判定結果を明示的に与える必要はない。

ＢＩＯ判定部１５は、テキスト分割部１３での結果を入力とし、モデル記憶部１４に記憶されたモデルを用いて、テキストの各系列中の各文字について、その先頭から順に顔文字タグ“Ｂ”、“Ｉ”、“Ｏ”のいずれに当たるかを判定し、顔文字タグ“Ｂ”および“Ｉ”に対応する文字列を検出結果として出力、例えば顔文字の開始タグ“<face>”と顔文字の終了タグ“</face>”との間に顔文字タグ“Ｂ”および“Ｉ”に対応する文字列「ｘｘｘｘ」を記述したＸＭＬ形式「<face>ｘｘｘｘ</face>」で出力する。

モデル記憶部１４に記憶するモデルは、テキスト集合の各テキストに対し、前記ＨＴＭＬタグ検出部１１、ＨＴＭＬタグ記憶部１２、ＨＴＭＬタグ除去部１、文字分割部３、テキスト分割部１３での処理を行い、その結果として得られる、ＨＴＭＬタグが除去され、文字単位に分割され、更に複数の系列に分割されたテキスト中の各文字の表記と、前記テキスト中の各文字について前記顔文字タグ“Ｂ”、“Ｉ”、“Ｏ”のいずれかに当たるかを人手により判断した結果としての情報とを用い、既存の機械学習によって予め作成したものである。この際、使用する機械学習としてはどのようなものでも良いが、系列ラベリング問題のためのものが望ましい。

図７は本実施の形態の顔文字検出装置における処理の流れを示すもので、以下、例を挙げてその動作を詳細に説明する。

ＨＴＭＬタグ検出部１１に入力されたテキスト（ＨＴＭＬタグを含むテキスト）は、当該テキスト中のＨＴＭＬタグが検出され、その出現位置および文字数が該検出されたＨＴＭＬタグとともにＨＴＭＬタグ記憶部１２に出力されて記憶される（ｓ１）。例えば、入力テキストが「今日はとっても楽しかったです。(^^) 明日も楽しみ！ 」であれば、１つ目のＨＴＭＬタグ“ ”の先頭の文字位置は「２０」であり、２つ目のＨＴＭＬタグ“ ”の先頭の文字位置は「３１」であり、文字数はいずれも「４」であるから、図８に示すような結果が得られる。なお、図８中の「タグ番号」とは、後述する説明のために出現順に単純に付与した、テキスト中のＨＴＭＬタグの識別番号である。また、入力されたテキストはそのままＨＴＭＬタグ除去部１へ出力される。

ＨＴＭＬタグ除去部１に入力されたテキストは、既存のＨＴＭＬタグ除去技術により、当該テキスト中のＨＴＭＬタグが除去され、文字分割部３に出力される（ｓ２）。例えば、入力テキストが「今日はとっても楽しかったです。(^^) 明日も楽しみ！ 」であれば、ＨＴＭＬタグ“ ”が除かれ、「今日はとっても楽しかったです。(^^)明日も楽しみ！」となる。

文字分割部３では、ＨＴＭＬタグ除去部１でＨＴＭＬタグが除去されたテキストを文字単位（文字コード単位）に分割し、テキスト分割部１３に出力する（ｓ３）。例えば、ＨＴＭＬタグ除去後のテキストが「今日はとっても楽しかったです。(^^)明日も楽しみ！」の場合、区切り記号を“/”で表すと、「今/日/は/と/っ/て/も/楽/し/か/っ/た/で/す/。/(/^/^/)/明/日/も/楽/し/み/！」となる。

テキスト分割部１３では、ＨＴＭＬタグ記憶部１２に記憶されたテキスト中のＨＴＭＬタグの出現位置および文字数に基づいて、ＨＴＭＬタグ除去部１でＨＴＭＬタグが除去され、文字分割部３で文字単位に分割されたテキストを、当該テキスト中のＨＴＭＬタグの出現位置で複数の系列に分割してＢＩＯ判定部１５に出力する（ｓ４）。

例えば、ＨＴＭＬタグ記憶部１２に記憶されたテキスト中のＨＴＭＬタグの出現位置および文字数が図８に示したものであり、ＨＴＭＬタグが除去され、文字単位に分割されたテキストが「今/日/は/と/っ/て/も/楽/し/か/っ/た/で/す/。/(/^/^/)/明/日/も/楽/し/み/！」であった場合、図９に示すような結果が得られる。

即ち、文字「明」の文字位置「２０」と、タグ番号１のＨＴＭＬタグの出現位置「２０」とが一致するため、文字位置「２０」の一つ前の文字位置「１９」までの文字列「今/日/は/と/っ/て/も/楽/し/か/っ/た/で/す/。/(/^/^/)」を第１の系列（ｉ）として出力する。一方、最後の文字「！」の文字位置「２６」まで、タグ番号２のＨＴＭＬタグの出現位置、ここでは「３１」からそれ以前に出現したタグ番号１のＨＴＭＬタグの文字数「４」を差し引いた値である「２７」と一致しないため、それまでの文字列「明/日/も/楽/し/み/！」を第２の系列（ii）として出力する。

ＢＩＯ判定部１５では、テキスト分割部１３での結果を入力とし、モデル記憶部１４に記憶されたモデルを用いて、テキストの各系列中の各文字について、その先頭から順に顔文字タグ“Ｂ”、“Ｉ”、“Ｏ”のいずれに当たるかを判定し、顔文字タグ“Ｂ”および“Ｉ”に対応する文字列を検出結果として出力する（ｓ５）。例えば、図９に示した結果のうち、第１の系列（ｉ）が入力された場合、図１０に示すように、先頭から順に、各文字のその文字を含む前後ｎ（ここではｎ＝３）文字の表記および前ｎ文字についてのＢＩＯ判定結果を素性としてモデル記憶部１４に記憶されたモデルに入力してＢＩＯ判定結果を得て、顔文字タグ“Ｂ”および“Ｉ”と判定された文字列「(^^)」をＸＭＬ形式「<face>(^^)</face>」で出力する。一方、図９に示した結果のうち、第２の系列（ii）が入力された場合、図１１に示すように、先頭から順に、各文字のその文字を含む前後ｎ（ここではｎ＝３）文字の表記および前ｎ文字についてのＢＩＯ判定結果を素性としてモデル記憶部１４に記憶されたモデルに入力してＢＩＯ判定結果を得るが、ここでは顔文字タグと判定された文字列はなく、何も出力されない。

＜第２の実施の形態＞
図１２は本発明の顔文字検出装置の第２の実施の形態、ここでは素性として少なくともテキスト中の各文字の表記とともにその文字種を用いた例を示すもので、図中、第１の実施の形態と同一構成部分は同一符号をもって表す。即ち、１はＨＴＭＬタグ除去部、３は文字分割部、１１はＨＴＭＬタグ検出部、１２はＨＴＭＬタグ記憶部、２１は文字種抽出部、２２はテキスト分割部、２３はモデル記憶部、２４はＢＩＯ判定部である。

文字種抽出部２１は、ＨＴＭＬタグ除去部１でＨＴＭＬタグが除去され、文字分割部３で文字単位（文字コード単位）に分割されたテキスト中の各文字を入力とし、該各文字の文字種（ひらがな、カタカナ、漢字、記号など）を抽出し、これを当該テキスト中の各文字の表記に対応させて出力する。

ここで、文字種を抽出する具体的な方法としては、文字コードと文字種とを対応づけたテーブルを予め用意しておき、テキスト中の各文字の文字コードに従ってテーブルを参照し、対応する文字種を読み出すことによって行うことができる。文字コードとしてシフトＪＩＳコードを用いた場合のテーブルの一例を図１３に示す。

テキスト分割部２２は、文字種抽出部２１での結果と、ＨＴＭＬタグ記憶部１２に記憶されたテキスト中のＨＴＭＬタグの出現位置および文字数とを入力として、ＨＴＭＬタグが除去され、文字単位に分割され、更に各文字毎にその文字種が付与されたテキストを、当該テキスト中のＨＴＭＬタグの出現位置で複数の系列に分割して出力する。

詳細には、ＨＴＭＬタグが除去され、文字単位に分割され、更に各文字毎にその文字種が付与されたテキスト中の一の文字の文字位置と、前記ＨＴＭＬタグ記憶部１２に記憶された前記テキスト中の各ＨＴＭＬタグの出現位置（タグの先頭の文字位置）とを順次比較し、一致する場合はその一つ前の文字位置までの文字列を一つの系列として出力し、これをテキスト中の全ての文字について繰り返し行う。但し、この際、テキスト中で最初に出現したＨＴＭＬタグの出現位置はＨＴＭＬタグ記憶部１２に記憶された値そのものを用いるが、２つ目以降に出現したＨＴＭＬタグの出現位置については、ＨＴＭＬタグ記憶部１２に記憶された値から、それ以前に出現したＨＴＭＬタグの文字数の和を差し引いた値を用いるものとする。また、テキスト中の最初の文字の文字位置で一致した（つまり、テキストの文頭にＨＴＭＬタグがある）場合は何も出力せず、最後の文字の文字位置まで一致しない（つまり、テキストの文末にＨＴＭＬタグがある）場合はそれまでの文字列を一つの系列として出力するものとする。

モデル記憶部２３は、予め機械学習により生成した、少なくともテキスト中の各文字の表記およびその文字種を素性、詳細には図１４に示すようなテキスト中の各文字のその文字を含む前後ｎ（ここではｎ＝３）文字の表記、それらの文字種および前ｎ文字についてのＢＩＯ判定結果を素性として、当該テキスト中の各文字が顔文字タグ“Ｂ”、“Ｉ”、“Ｏ”のいずれに当たるかを判定するためのモデルを記憶している。但し、使用する機械学習によっては、前ｎ文字についてのＢＩＯ判定結果を明示的に与える必要はない。

ＢＩＯ判定部２４は、テキスト分割部２２での結果を入力とし、モデル記憶部２３に記憶されたモデルを用いて、テキストの各系列中の各文字について、その先頭から順に顔文字タグ“Ｂ”、“Ｉ”、“Ｏ”のいずれに当たるかを判定し、顔文字タグ“Ｂ”および“Ｉ”に対応する文字列を検出結果として出力、例えば顔文字の開始タグ“<face>”と顔文字の終了タグ“</face>”との間に顔文字タグ“Ｂ”および“Ｉ”に対応する文字列「ｘｘｘｘ」を記述したＸＭＬ形式「<face>ｘｘｘｘ</face>」で出力する。

モデル記憶部２３に記憶するモデルは、テキスト集合の各テキストに対し、前記ＨＴＭＬタグ検出部１１、ＨＴＭＬタグ記憶部１２、ＨＴＭＬタグ除去部１、文字分割部３、文字種抽出部２１、テキスト分割部２２での処理を行い、その結果として得られる、ＨＴＭＬタグが除去され、文字単位に分割され、更に複数の系列に分割されたテキスト中の各文字の表記およびその文字種の情報と、前記テキスト中の各文字について前記顔文字タグ“Ｂ”、“Ｉ”、“Ｏ”のいずれかに当たるかを人手により判断した結果としての情報とを用い、既存の機械学習によって予め作成したものである。この際、使用する機械学習としてはどのようなものでも良いが、系列ラベリング問題のためのものが望ましい。

図１５は本実施の形態の顔文字検出装置における処理の流れを示すもので、以下、例を挙げてその動作を詳細に説明するが、ＨＴＭＬタグ検出・記憶処理ｓ１、ＨＴＭＬタグ除去処理ｓ２、文字分割処理ｓ３については第１の実施の形態の場合と同様であるから省略する。

文字種抽出部２１では、ＨＴＭＬタグ除去部１でＨＴＭＬタグが除去され、文字分割部３で文字単位に分割されたテキスト中の各文字について、その文字種を抽出し、これを当該テキスト中の各文字の表記に対応させてテキスト分割部２２に出力する（ｓ１１）。例えば、文字分割部３での結果が「今/日/は/と/っ/て/も/楽/し/か/っ/た/で/す/。/(/^/^/)/明/日/も/楽/し/み/！」である場合、図１６に示すような結果が得られる。

テキスト分割部２２では、ＨＴＭＬタグ記憶部１２に記憶されたテキスト中のＨＴＭＬタグの出現位置および文字数に基づいて、ＨＴＭＬタグ除去部１でＨＴＭＬタグが除去され、文字分割部３で文字単位に分割され、文字種抽出部２１で各文字毎にその文字種が付与されたテキストを、当該テキスト中のＨＴＭＬタグの出現位置で複数の系列に分割してＢＩＯ判定部２４に出力する（ｓ１２）。

例えば、ＨＴＭＬタグ記憶部１２に記憶されたテキスト中のＨＴＭＬタグの出現位置および文字数が図８に示したものであり、ＨＴＭＬタグが除去され、文字単位に分割され、各文字毎にその文字種が付与されたテキストが図１６に示したものであった場合、図１７に示すような結果が得られる。

ＢＩＯ判定部２４では、テキスト分割部２２での結果を入力とし、モデル記憶部２３に記憶されたモデルを用いて、テキストの各系列中の各文字について、その先頭から順に顔文字タグ“Ｂ”、“Ｉ”、“Ｏ”のいずれに当たるかを判定し、顔文字タグ“Ｂ”および“Ｉ”に対応する文字列を検出結果として出力する（ｓ１３）。例えば、図１７に示した結果のうち、第１の系列（ｉ）が入力された場合、図１８に示すように、先頭から順に、各文字のその文字を含む前後ｎ（ここではｎ＝３）文字の表記、それらの文字種および前ｎ文字についてのＢＩＯ判定結果を素性としてモデル記憶部２３に記憶されたモデルに入力してＢＩＯ判定結果を得て、顔文字タグ“Ｂ”および“Ｉ”と判定された文字列「(^^)」をＸＭＬ形式「<face>(^^)</face>」で出力する。一方、図１７に示した結果のうち、第２の系列（ii）が入力された場合、図１９に示すように、先頭から順に、各文字のその文字を含む前後ｎ（ここではｎ＝３）文字の表記、それらの文字種および前ｎ文字についてのＢＩＯ判定結果を素性としてモデル記憶部２３に記憶されたモデルに入力してＢＩＯ判定結果を得るが、ここでは顔文字タグと判定された文字列はなく、何も出力されない。

＜第３の実施の形態＞
ＨＴＭＬソーステキストの場合、ＨＴＭＬタグが顔文字の途中に出現することは非常に少ないという傾向の外、顔文字は“ ”などのＨＴＭＬタグの直前に出現することが多いという出現傾向がある。このような出現傾向もまた、顔文字の検出に有効であると思われる。

図２０は本発明の顔文字検出装置の第３の実施の形態、ここでは素性として少なくともテキスト中の各文字の表記とともに当該文字の直前および直後にＨＴＭＬタグがあったかどうか、あった場合はどのようなＨＴＭＬタグかを表すＨＴＭＬタグ情報を用いた例を示すもので、図中、第１の実施の形態と同一構成部分は同一符号をもって表す。即ち、１はＨＴＭＬタグ除去部、３は文字分割部、１１はＨＴＭＬタグ検出部、１２はＨＴＭＬタグ記憶部、３１はＨＴＭＬタグ情報生成部、３２はテキスト分割部、３３はモデル記憶部、３４はＢＩＯ判定部である。

ＨＴＭＬタグ情報生成部３１は、ＨＴＭＬタグ除去部１でＨＴＭＬタグが除去され、文字分割部３で文字単位（文字コード単位）に分割されたテキストと、ＨＴＭＬタグ記憶部１２に記憶されたテキスト中のＨＴＭＬタグ、その出現位置および文字数とを入力として、ＨＴＭＬタグが除去され、文字単位に分割されたテキスト中の各文字の直前および直後にＨＴＭＬタグがあったかどうかを判定し、あった場合はそのＨＴＭＬタグを、また、なかった場合は無しを意味するＨＴＭＬタグ（ここではＮＵＬＬ）をＨＴＭＬタグ情報として、当該テキスト中の各文字の表記に対応させて出力する。

詳細には、ＨＴＭＬタグが除去され、文字単位に分割されたテキスト中の一の文字の直前の文字位置および直後の文字位置、実際には当該文字の文字位置およびこれに１を加えた文字位置と、前記ＨＴＭＬタグ記憶部１２に記憶された前記テキスト中の各ＨＴＭＬタグの出現位置（タグの先頭の文字位置）とを順次比較し、一致する場合はそのＨＴＭＬタグをＨＴＭＬタグ情報として出力し、また、一致しない場合はタグ無しを意味するＨＴＭＬタグ（ＮＵＬＬ）をＨＴＭＬタグ情報として出力し、これをテキスト中の全ての文字について繰り返し行う。但し、この際、テキスト中で最初に出現したＨＴＭＬタグの出現位置はＨＴＭＬタグ記憶部１２に記憶された値そのものを用いるが、２つ目以降に出現したＨＴＭＬタグの出現位置については、ＨＴＭＬタグ記憶部１２に記憶された値から、それ以前に出現したＨＴＭＬタグの文字数の和を差し引いた値を用いるものとする。

テキスト分割部３２は、ＨＴＭＬタグ情報生成部３１での結果と、ＨＴＭＬタグ記憶部１２に記憶されたテキスト中のＨＴＭＬタグの出現位置および文字数とを入力として、ＨＴＭＬタグが除去され、文字単位に分割され、更に各文字毎にその直前および直後のＨＴＭＬタグ情報が付与されたテキストを、当該テキスト中のＨＴＭＬタグの出現位置で複数の系列に分割して出力する。

詳細には、ＨＴＭＬタグが除去され、文字単位に分割され、更に各文字毎にその直前および直後のＨＴＭＬタグ情報が付与されたテキスト中の一の文字の文字位置と、前記ＨＴＭＬタグ記憶部１２に記憶された前記テキスト中の各ＨＴＭＬタグの出現位置（タグの先頭の文字位置）とを順次比較し、一致する場合はその一つ前の文字位置までの文字列を一つの系列として出力し、これをテキスト中の全ての文字について繰り返し行う。但し、この際、テキスト中で最初に出現したＨＴＭＬタグの出現位置はＨＴＭＬタグ記憶部１２に記憶された値そのものを用いるが、２つ目以降に出現したＨＴＭＬタグの出現位置については、ＨＴＭＬタグ記憶部１２に記憶された値から、それ以前に出現したＨＴＭＬタグの文字数の和を差し引いた値を用いるものとする。また、テキスト中の最初の文字の文字位置で一致した（つまり、テキストの文頭にＨＴＭＬタグがある）場合は何も出力せず、最後の文字の文字位置まで一致しない（つまり、テキストの文末にＨＴＭＬタグがある）場合はそれまでの文字列を一つの系列として出力するものとする。

モデル記憶部３３は、予め機械学習により生成した、少なくともテキスト中の各文字の表記並びにその直前および直後のＨＴＭＬタグ情報を素性、詳細には図２１に示すようなテキスト中の各文字のその文字を含む前後ｎ（ここではｎ＝３）文字の表記、それらの直前および直後のＨＴＭＬタグ情報、更には前ｎ文字についてのＢＩＯ判定結果を素性として、当該テキスト中の各文字が顔文字タグ“Ｂ”、“Ｉ”、“Ｏ”のいずれに当たるかを判定するためのモデルを記憶している。但し、使用する機械学習によっては、前ｎ文字についてのＢＩＯ判定結果を明示的に与える必要はない。

ＢＩＯ判定部３４は、テキスト分割部３２での結果を入力とし、モデル記憶部３３に記憶されたモデルを用いて、テキスト中の各系列中の各文字について、その先頭から順に顔文字タグ“Ｂ”、“Ｉ”、“Ｏ”のいずれに当たるかを判定し、顔文字タグ“Ｂ”および“Ｉ”に対応する文字列を検出結果として出力、例えば顔文字の開始タグ“<face>”と顔文字の終了タグ“</face>”との間に顔文字タグ“Ｂ”および“Ｉ”に対応する文字列「ｘｘｘｘ」を記述したＸＭＬ形式「<face>ｘｘｘｘ</face>」で出力する。

モデル記憶部３３に記憶するモデルは、テキスト集合の各テキストに対し、前記ＨＴＭＬタグ検出部１１、ＨＴＭＬタグ記憶部１２、ＨＴＭＬタグ除去部１、文字分割部３、ＨＴＭＬタグ情報生成部３１、テキスト分割部３２での処理を行い、その結果として得られる、ＨＴＭＬタグが除去され、文字単位に分割され、更に複数の系列に分割されたテキスト中の各文字の表記並びにその直前および直後のＨＴＭＬタグ情報と、前記テキスト中の各文字について前記顔文字タグ“Ｂ”、“Ｉ”、“Ｏ”のいずれかに当たるかを人手により判断した結果としての情報とを用い、既存の機械学習によって予め作成したものである。この際、使用する機械学習としてはどのようなものでも良いが、系列ラベリング問題のためのものが望ましい。

図２２は本実施の形態の顔文字検出装置における処理の流れを示すもので、以下、例を挙げてその動作を詳細に説明するが、ＨＴＭＬタグ検出・記憶処理ｓ１、ＨＴＭＬタグ除去処理ｓ２、文字分割処理ｓ３については第１の実施の形態の場合と同様であるから省略する。

ＨＴＭＬタグ情報生成部３１では、ＨＴＭＬタグ記憶部１２に記憶されたテキスト中のＨＴＭＬタグ、その出現位置および文字数に基づいて、ＨＴＭＬタグ除去部１でＨＴＭＬタグが除去され、文字分割部３で文字単位に分割されたテキスト中の各文字について、その直前および直後にＨＴＭＬタグがあったかどうかを判定し、あった場合はそのＨＴＭＬタグを、また、なかった場合は無しを意味するＨＴＭＬタグ（ＮＵＬＬ）をＨＴＭＬタグ情報として、当該テキスト中の各文字の表記に対応させてテキスト分割部３２に出力する（ｓ２１）。

例えば、ＨＴＭＬタグ記憶部１２に記憶されたテキスト中のＨＴＭＬタグ、その出現位置および文字数が図８に示したものであり、ＨＴＭＬタグが除去され、文字単位に分割されたテキストが「今/日/は/と/っ/て/も/楽/し/か/っ/た/で/す/。/(/^/^/)/明/日/も/楽/し/み/！」であった場合、図２３に示すような結果が得られる。

即ち、文字位置「１９」の文字「)」の直後の文字位置、つまり「１９」に１を加えた文字位置「２０」と、タグ番号１のＨＴＭＬタグの出現位置「２０」とが一致するため、文字位置「１９」の文字「)」の直後のＨＴＭＬタグ情報は、当該タグ番号１のＨＴＭＬタグ“ ”となる。同様に、文字位置「２０」の文字「明」の直前の文字位置、つまり当該文字「明」の文字位置「２０」と、タグ番号１のＨＴＭＬタグの出現位置「２０」とが一致するため、文字位置「２０」の文字「明」の直前のＨＴＭＬタグ情報も、当該タグ番号１のＨＴＭＬタグ“ ”となる。一方、文字位置「２６」の文字「！」の直後の文字位置、つまり「２６」に１を加えた文字位置「２７」と、タグ番号２のＨＴＭＬタグの出現位置、ここでは「３１」からそれ以前に出現したタグ番号１のＨＴＭＬタグの文字数「４」を差し引いた値である「２７」とが一致するため、文字位置「２６」の文字「！」の直後のＨＴＭＬタグ情報は、当該タグ番号２のＨＴＭＬタグ“ ”となる。

テキスト分割部３２では、ＨＴＭＬタグ記憶部１２に記憶されたテキスト中のＨＴＭＬタグの出現位置および文字数に基づいて、ＨＴＭＬタグ除去部１でＨＴＭＬタグが除去され、文字分割部３で文字単位に分割され、ＨＴＭＬタグ情報生成部３１で各文字毎にその直前および直後のＨＴＭＬタグ情報が付与されたテキストを、当該テキスト中のＨＴＭＬタグの出現位置で複数の系列に分割してＢＩＯ判定部３４に出力する（ｓ２２）。

例えば、ＨＴＭＬタグ記憶部１２に記憶されたテキスト中のＨＴＭＬタグの出現位置および文字数が図８に示したものであり、ＨＴＭＬタグが除去され、文字単位に分割され、各文字毎にその直前および直後のＨＴＭＬタグ情報が付与されたテキストが図２３に示したものであった場合、図２４に示すような結果が得られる。

ＢＩＯ判定部３４では、テキスト分割部３２での結果を入力とし、モデル記憶部３３に記憶されたモデルを用いて、テキスト中の各系列中の各文字について、その先頭から順に顔文字タグ“Ｂ”、“Ｉ”、“Ｏ”のいずれに当たるかを判定し、顔文字タグ“Ｂ”および“Ｉ”に対応する文字列を検出結果として出力する（ｓ２３）。例えば、図２４に示した結果のうち、第１の系列（ｉ）が入力された場合、図２５に示すように、先頭から順に、各文字のその文字を含む前後ｎ（ここではｎ＝３）文字の表記、それらの文字の直前および直後のＨＴＭＬタグ情報、前ｎ文字についてのＢＩＯ判定結果を素性としてモデル記憶部３３に記憶されたモデルに入力してＢＩＯ判定結果を得て、顔文字タグ“Ｂ”および“Ｉ”と判定された文字列「(^^)」をＸＭＬ形式「<face>(^^)</face>」で出力する。一方、図２４に示した結果のうち、第２の系列（ii）が入力された場合、図２６に示すように、先頭から順に、各文字のその文字を含む前後ｎ（ここではｎ＝３）文字の表記、それらの文字の直前および直後のＨＴＭＬタグ情報、前ｎ文字についてのＢＩＯ判定結果を素性としてモデル記憶部３３に記憶されたモデルに入力してＢＩＯ判定結果を得るが、ここでは顔文字タグと判定された文字列はなく、何も出力されない。

＜第４の実施の形態＞
顔文字を構成する文字列の細部に着目すると、“目”に当たる文字を２つ並べた文字列（“目目”）や、“目”に当たる文字を２つ並べ、更にその間に“口”に当たる文字を並べた文字列（“目口目”）（以下、これらを顔部分の文字列と呼ぶ。）を含むケースが多い。また、同一の顔部分の文字列が複数種類の顔文字に含まれる場合も多く、このような顔文字を構成する文字列の特徴は、顔文字の検出に有効であると思われる。

図２７は本発明の顔文字検出装置の第４の実施の形態、ここでは素性として少なくともテキスト中の各文字の表記とともに当該文字が顔部分であるか否か（ＹｅｓかＮｏか）を示す顔部分情報を用いた例を示すもので、図中、第１の実施の形態と同一構成部分は同一符号をもって表す。即ち、１はＨＴＭＬタグ除去部、３は文字分割部、１１はＨＴＭＬタグ検出部、１２はＨＴＭＬタグ記憶部、４１は顔部分辞書記憶部、４２は顔部分抽出部、４３は顔部分情報生成部、４４はテキスト分割部、４５はモデル記憶部、４６はＢＩＯ判定部である。

顔部分辞書記憶部４１は、顔文字を構成する文字列中の顔部分の文字列の集合を登録してなる顔部分辞書を記憶している。図２８に顔部分辞書の一例を示す。なお、図２８では顔部分の元となる顔文字も併記しているが、同一の顔部分の文字列が複数種類の顔文字に含まれる場合があることを示すためであり、顔文字（の文字列）まで登録する必要があるということではない。

顔部分抽出部４２は、ＨＴＭＬタグ除去部１でＨＴＭＬタグが除去されたテキストから顔部分辞書記憶部４１に記憶された顔部分辞書に登録されている顔部分の文字列に対応する範囲を抽出、詳細にはテキストに対して顔部分辞書内の顔部分の文字列毎にパターンマッチングを行い、該マッチングした顔部分の文字列に対応する範囲の文字位置を取得する。なお、顔部分の文字列に対応する範囲の具体的な文字位置としては、当該範囲に含まれる全ての文字の文字位置の外、当該範囲の文頭側の文字および文末側の文字の文字位置のペアでも良い。

顔部分情報生成部４３は、ＨＴＭＬタグ除去部１でＨＴＭＬタグが除去され、文字分割部３で文字単位（文字コード単位）に分割されたテキストと、顔部分抽出部４２で抽出された前記テキストにおける顔部分の範囲とを入力として、文字単位に分割されたテキスト中の各文字が顔部分であるか否かを判定、詳細には文字単位に分割されたテキスト中の各文字の位置と、抽出された前記テキストにおける顔部分の範囲の文字位置とを比較し、一致する場合は顔部分であることを示す顔部分情報（ここではＹｅｓ）を、一致しない場合は顔部分でないことを示す顔部分情報（ここではＮｏ）を、当該テキスト中の各文字の表記に対応させて出力する。

なお、顔部分の文字列に対応する範囲の具体的な文字位置が当該範囲の文頭側の文字および文末側の文字の文字位置のペア、例えば「ａ，ｂ」である場合は、文字単位に分割されたテキスト中の各文字の位置がａ以上かつｂ以下のときを一致といい、ａより小さい又はｂより大きいときを不一致というものとする。

テキスト分割部４４は、顔部分情報生成部４３での結果と、ＨＴＭＬタグ記憶部１２に記憶されたテキスト中のＨＴＭＬタグの出現位置および文字数とを入力として、ＨＴＭＬタグが除去され、文字単位に分割され、更に各文字毎に顔部分情報が付与されたテキストを、当該テキスト中のＨＴＭＬタグの出現位置で複数の系列に分割して出力する。

詳細には、ＨＴＭＬタグが除去され、文字単位に分割され、更に各文字毎に顔部分情報が付与されたテキスト中の一の文字の文字位置と、前記ＨＴＭＬタグ記憶部１２に記憶された前記テキスト中の各ＨＴＭＬタグの出現位置（タグの先頭の文字位置）とを順次比較し、一致する場合はその一つ前の文字位置までの文字列を一つの系列として出力し、これをテキスト中の全ての文字について繰り返し行う。但し、この際、テキスト中で最初に出現したＨＴＭＬタグの出現位置はＨＴＭＬタグ記憶部１２に記憶された値そのものを用いるが、２つ目以降に出現したＨＴＭＬタグの出現位置については、ＨＴＭＬタグ記憶部１２に記憶された値から、それ以前に出現したＨＴＭＬタグの文字数の和を差し引いた値を用いるものとする。また、テキスト中の最初の文字の文字位置で一致した（つまり、テキストの文頭にＨＴＭＬタグがある）場合は何も出力せず、最後の文字の文字位置まで一致しない（つまり、テキストの文末にＨＴＭＬタグがある）場合はそれまでの文字列を一つの系列として出力するものとする。

モデル記憶部４５は、予め機械学習により生成した、少なくともテキスト中の各文字の表記およびその顔部分情報を素性、詳細には図２９に示すようなテキスト中の各文字のその文字を含む前後ｎ（ここではｎ＝３）文字の表記、それらの顔部分情報および前ｎ文字についてのＢＩＯ判定結果を素性として、当該テキスト中の各文字が顔文字タグ“Ｂ”、“Ｉ”、“Ｏ”のいずれに当たるかを判定するためのモデルを記憶している。但し、使用する機械学習によっては、前ｎ文字についてのＢＩＯ判定結果を明示的に与える必要はない。

ＢＩＯ判定部４６は、テキスト分割部４４での結果を入力とし、モデル記憶部４５に記憶されたモデルを用いて、テキスト中の各系列中の各文字について、その先頭から順に顔文字タグ“Ｂ”、“Ｉ”、“Ｏ”のいずれに当たるかを判定し、顔文字タグ“Ｂ”および“Ｉ”に対応する文字列を検出結果として出力、例えば顔文字の開始タグ“<face>”と顔文字の終了タグ“</face>”との間に顔文字タグ“Ｂ”および“Ｉ”に対応する文字列「ｘｘｘｘ」を記述したＸＭＬ形式「<face>ｘｘｘｘ</face>」で出力する。

モデル記憶部４５に記憶するモデルは、テキスト集合の各テキストに対し、前記ＨＴＭＬタグ検出部１１、ＨＴＭＬタグ記憶部１２、ＨＴＭＬタグ除去部１、文字分割部３、顔部分辞書記憶部４１、顔部分抽出部４２、顔部分情報生成部４３、テキスト分割部４４での処理を行い、その結果として得られる、ＨＴＭＬタグが除去され、文字単位に分割され、更に複数の系列に分割されたテキスト中の各文字の表記およびその顔部分情報と、前記テキスト中の各文字について前記顔文字タグ“Ｂ”、“Ｉ”、“Ｏ”のいずれかに当たるかを人手により判断した結果としての情報とを用い、既存の機械学習によって予め作成したものである。この際、使用する機械学習としてはどのようなものでも良いが、系列ラベリング問題のためのものが望ましい。

図３０は本実施の形態の顔文字検出装置における処理の流れを示すもので、以下、例を挙げてその動作を詳細に説明するが、ＨＴＭＬタグ検出・記憶処理ｓ１、ＨＴＭＬタグ除去処理ｓ２、文字分割処理ｓ３については第１の実施の形態の場合と同様であるから省略する。

顔部分抽出部４２では、ＨＴＭＬタグ除去部１でＨＴＭＬタグが除去されたテキストから顔部分辞書記憶部４１に記憶された顔部分辞書に登録されている顔部分の文字列に対応する範囲を抽出し、その文字位置を取得する（ｓ３１）。例えば、ＨＴＭＬタグ除去後のテキストが「今日はとっても楽しかったです。(^^)明日も楽しみ！」の場合、文字列「^^」が顔部分として抽出され、その文字位置は「１７，１８」となる。

なお、文字分割処理および顔部分抽出処理の順序は逆でも良く、あるいは同時であっても良い。

顔部分情報生成部４３では、ＨＴＭＬタグ除去部１でＨＴＭＬタグが除去され、文字分割部３で文字単位に分割されたテキスト中の各文字の位置と、ＨＴＭＬタグ除去部１でＨＴＭＬタグが除去された前記テキストに対して顔部分抽出部４２で抽出された顔部分の範囲の文字位置とを比較し、一致する場合は顔部分であることを示す顔部分情報（Ｙｅｓ）を、一致しない場合は顔部分でないことを示す顔部分情報（Ｎｏ）を、当該テキスト中の各文字の表記に対応させてテキスト分割部４４に出力する（ｓ３２）。例えば、文字分割部３での結果が「今/日/は/と/っ/て/も/楽/し/か/っ/た/で/す/。/(/^/^/)/明/日/も/楽/し/み/！」であり、顔部分抽出部４２で抽出された顔部分の範囲の文字位置が「１７，１８」である場合、図３１に示すような結果が得られる。

テキスト分割部４４では、ＨＴＭＬタグ記憶部１２に記憶されたテキスト中のＨＴＭＬタグの出現位置および文字数に基づいて、ＨＴＭＬタグ除去部１でＨＴＭＬタグが除去され、文字分割部３で文字単位に分割され、顔部分辞書記憶部４１、顔部分抽出部４２および顔部分情報生成部４３で各文字毎にその顔部分情報が付与されたテキストを、当該テキスト中のＨＴＭＬタグの出現位置で複数の系列に分割してＢＩＯ判定部４６に出力する（ｓ３３）。

例えば、ＨＴＭＬタグ記憶部１２に記憶されたテキスト中のＨＴＭＬタグの出現位置および文字数が図８に示したものであり、ＨＴＭＬタグが除去され、文字単位に分割され、各文字毎にその顔部分情報が付与されたテキストが図３１に示したものであった場合、図３２に示すような結果が得られる。

ＢＩＯ判定部４６では、テキスト分割部４４での結果を入力とし、モデル記憶部４５に記憶されたモデルを用いて、テキスト中の各系列中の各文字について、その先頭から順に顔文字タグ“Ｂ”、“Ｉ”、“Ｏ”のいずれに当たるかを判定し、顔文字タグ“Ｂ”および“Ｉ”に対応する文字列を検出結果として出力する（ｓ３４）。例えば、図３２に示した結果のうち、第１の系列（ｉ）が入力された場合、図３３に示すように、先頭から順に、各文字のその文字を含む前後ｎ（ここではｎ＝３）文字の表記、それらの文字の顔部分情報、前ｎ文字についてのＢＩＯ判定結果を素性としてモデル記憶部４５に記憶されたモデルに入力してＢＩＯ判定結果を得て、顔文字タグ“Ｂ”および“Ｉ”と判定された文字列「(^^)」をＸＭＬ形式「<face>(^^)</face>」で出力する。一方、図３２に示した結果のうち、第２の系列（ii）が入力された場合、図３４に示すように、先頭から順に、各文字のその文字を含む前後ｎ（ここではｎ＝３）文字の表記、それらの文字の顔部分情報、前ｎ文字についてのＢＩＯ判定結果を素性としてモデル記憶部４５に記憶されたモデルに入力してＢＩＯ判定結果を得るが、ここでは顔文字タグと判定された文字列はなく、何も出力されない。

＜第５の実施の形態＞
顔文字を構成する文字列、例えば「(^^)」、「(｀´)」、「(^o^)」、「(^◇^)」、「＼(^◇^)／」、「(> <)」、「(T T)」、「(T△T)」などの文字列に着目すると、「^^」、「TT」などの２つの同一文字、または「(」および「)」、「＼」および「／」、「>」および「<」などの一対の対称文字のいずれか一方を少なくとも含み、文字列全体として左右対称であるケースが少なくない。このような顔文字を構成する文字列の特徴、つまり左右対称性は、顔文字の検出に有効であると思われる。

図３５は本発明の顔文字検出装置の第５の実施の形態、ここでは素性として少なくともテキスト中の各文字の表記とともに当該文字が２つの同一文字または一対の対称文字のいずれか一方を少なくとも含み、全体として左右対称性を有する左右対称文字列に含まれるか否かを示す左右対称情報を用いた例を示すもので、図中、第１の実施の形態と同一構成部分は同一符号をもって表す。即ち、１はＨＴＭＬタグ除去部、３は文字分割部、１１はＨＴＭＬタグ検出部、１２はＨＴＭＬタグ記憶部、５１は左右対称文字列抽出部、５２は左右対称情報生成部、５３はテキスト分割部、５４はモデル記憶部、５５はＢＩＯ判定部である。

左右対称文字列抽出部５１は、ＨＴＭＬタグ除去部１でＨＴＭＬタグが除去されたテキストから、２つの同一文字または一対の対称文字のいずれか一方を少なくとも含み、全体として左右対称性を有する左右対称文字列に対応する範囲を抽出、詳細には後述するような処理を行い、左右対称文字列に対応する範囲の文字位置を取得する。なお、左右対称文字列に対応する範囲の具体的な文字位置としては、当該範囲に含まれる全ての文字の文字位置の外、当該範囲の文頭側の文字および文末側の文字の文字位置のペアでも良い。

左右対称情報生成部５２は、ＨＴＭＬタグ除去部１でＨＴＭＬタグが除去され、文字分割部３で文字単位（文字コード単位）に分割されたテキストと、左右対称文字列抽出部５１で抽出された前記テキストにおける左右対称文字列の範囲とを入力として、文字単位に分割されたテキスト中の各文字が左右対称文字列に含まれるか否かを判定、詳細には文字単位に分割されたテキスト中の各文字の位置と、抽出された前記テキストにおける左右対称文字列の範囲の文字位置とを比較し、一致する場合は左右対称文字列に含まれることを示す左右対称情報（ここではＹｅｓ）を、一致しない場合は左右対称文字列に含まれないことを示す左右対称情報（ここではＮｏ）を、当該テキスト中の各文字の表記に対応させて出力する。

なお、左右対称文字列に対応する範囲の具体的な文字位置が当該範囲の文頭側の文字および文末側の文字の文字位置のペア、例えば「ａ，ｂ」である場合は、文字単位に分割されたテキスト中の各文字の位置がａ以上かつｂ以下のときを一致といい、ａより小さい又はｂより大きいときを不一致というものとする。

テキスト分割部５３は、左右対称情報生成部５２での結果と、ＨＴＭＬタグ記憶部１２に記憶されたテキスト中のＨＴＭＬタグの出現位置および文字数とを入力として、ＨＴＭＬタグが除去され、文字単位に分割され、更に各文字毎に左右対称情報が付与されたテキストを、当該テキスト中のＨＴＭＬタグの出現位置で複数の系列に分割して出力する。

詳細には、ＨＴＭＬタグが除去され、文字単位に分割され、更に各文字毎に左右対称情報が付与されたテキスト中の一の文字の文字位置と、前記ＨＴＭＬタグ記憶部１２に記憶された前記テキスト中の各ＨＴＭＬタグの出現位置（タグの先頭の文字位置）とを順次比較し、一致する場合はその一つ前の文字位置までの文字列を一つの系列として出力し、これをテキスト中の全ての文字について繰り返し行う。但し、この際、テキスト中で最初に出現したＨＴＭＬタグの出現位置はＨＴＭＬタグ記憶部１２に記憶された値そのものを用いるが、２つ目以降に出現したＨＴＭＬタグの出現位置については、ＨＴＭＬタグ記憶部１２に記憶された値から、それ以前に出現したＨＴＭＬタグの文字数の和を差し引いた値を用いるものとする。また、テキスト中の最初の文字の文字位置で一致した（つまり、テキストの文頭にＨＴＭＬタグがある）場合は何も出力せず、最後の文字の文字位置まで一致しない（つまり、テキストの文末にＨＴＭＬタグがある）場合はそれまでの文字列を一つの系列として出力するものとする。

モデル記憶部５４は、予め機械学習により生成した、少なくともテキスト中の各文字の表記およびその左右対称情報を素性、詳細には図３６に示すようなテキスト中の各文字のその文字を含む前後ｎ（ここではｎ＝３）文字の表記、それらの左右対称情報および前ｎ文字についてのＢＩＯ判定結果を素性として、当該テキスト中の各文字が顔文字タグ“Ｂ”、“Ｉ”、“Ｏ”のいずれに当たるかを判定するためのモデルを記憶している。但し、使用する機械学習によっては、前ｎ文字についてのＢＩＯ判定結果を明示的に与える必要はない。

ＢＩＯ判定部５５は、テキスト分割部５３での結果を入力とし、モデル記憶部５４に記憶されたモデルを用いて、テキスト中の各系列中の各文字について、その先頭から順に顔文字タグ“Ｂ”、“Ｉ”、“Ｏ”のいずれに当たるかを判定し、顔文字タグ“Ｂ”および“Ｉ”に対応する文字列を検出結果として出力、例えば顔文字の開始タグ“<face>”と顔文字の終了タグ“</face>”との間に顔文字タグ“Ｂ”および“Ｉ”に対応する文字列「ｘｘｘｘ」を記述したＸＭＬ形式「<face>ｘｘｘｘ</face>」で出力する。

モデル記憶部５４に記憶するモデルは、テキスト集合の各テキストに対し、前記ＨＴＭＬタグ検出部１１、ＨＴＭＬタグ記憶部１２、ＨＴＭＬタグ除去部１、文字分割部３、左右対称文字列抽出部５１、左右対称情報生成部５２、テキスト分割部５３での処理を行い、その結果として得られる、ＨＴＭＬタグが除去され、文字単位に分割され、更に複数の系列に分割されたテキスト中の各文字の表記およびその左右対称情報と、前記テキスト中の各文字について前記顔文字タグ“Ｂ”、“Ｉ”、“Ｏ”のいずれかに当たるかを人手により判断した結果としての情報とを用い、既存の機械学習によって予め作成したものである。この際、使用する機械学習としてはどのようなものでも良いが、系列ラベリング問題のためのものが望ましい。

図３７は本実施の形態の顔文字検出装置における処理の流れを示すもので、以下、例を挙げてその動作を詳細に説明するが、ＨＴＭＬタグ検出・記憶処理ｓ１、ＨＴＭＬタグ除去処理ｓ２、文字分割処理ｓ３については第１の実施の形態の場合と同様であるから省略する。

左右対称文字列抽出部５１では、ＨＴＭＬタグ除去部１でＨＴＭＬタグが除去されたテキストから、２つの同一文字または一対の対称文字の少なくとも一方を含み、全体として左右対称性を有する左右対称文字列に対応する範囲を抽出し、その文字位置を取得する（ｓ４１）。例えば、ＨＴＭＬタグ除去後のテキストが「今日はとっても楽しかったです。(^^)明日も楽しみ！」の場合、文字列「(^^)」が左右対称文字列として抽出され、その文字位置は「１６，１７，１８，１９」（文頭側の文字および文末側の文字の文字位置のペアで表せば「１６，１９」）となる。

なお、文字分割処理および左右対称文字列抽出処理の順序は逆でも良く、あるいは同時であっても良い。

左右対称情報生成部５２では、ＨＴＭＬタグ除去部１でＨＴＭＬタグが除去され、文字分割部３で文字単位に分割されたテキスト中の各文字の位置と、ＨＴＭＬタグ除去部１でＨＴＭＬタグが除去された前記テキストに対して左右対称文字列抽出部５１で抽出された左右対称文字列の範囲の文字位置とを比較し、一致する場合は左右対称文字列であることを示す左右対称情報（Ｙｅｓ）を、一致しない場合は左右対称文字列でないことを示す左右対称情報（Ｎｏ）を、当該テキスト中の各文字の表記に対応させてテキスト分割部５３に出力する（ｓ４２）。例えば、文字分割部３での結果が「今/日/は/と/っ/て/も/楽/し/か/っ/た/で/す/。/(/^/^/)/明/日/も/楽/し/み/！」であり、左右対称文字列抽出部５１で抽出された左右対称文字列の範囲の文字位置が「１６，１７，１８，１９」である場合、図３８に示すような結果が得られる。

テキスト分割部５３では、ＨＴＭＬタグ記憶部１２に記憶されたテキスト中のＨＴＭＬタグの出現位置および文字数に基づいて、ＨＴＭＬタグ除去部１でＨＴＭＬタグが除去され、文字分割部３で文字単位に分割され、左右対称文字列抽出部５１および左右対称情報生成部５２で各文字毎にその左右対称情報が付与されたテキストを、当該テキスト中のＨＴＭＬタグの出現位置で複数の系列に分割してＢＩＯ判定部５５に出力する（ｓ４３）。

例えば、ＨＴＭＬタグ記憶部１２に記憶されたテキスト中のＨＴＭＬタグの出現位置および文字数が図８に示したものであり、ＨＴＭＬタグが除去され、文字単位に分割され、各文字毎にその左右対称情報が付与されたテキストが図３８に示したものであった場合、図３９に示すような結果が得られる。

ＢＩＯ判定部５５では、テキスト分割部５３での結果を入力とし、モデル記憶部５４に記憶されたモデルを用いて、テキスト中の各系列中の各文字について、その先頭から順に顔文字タグ“Ｂ”、“Ｉ”、“Ｏ”のいずれに当たるかを判定し、顔文字タグ“Ｂ”および“Ｉ”に対応する文字列を検出結果として出力する（ｓ４４）。例えば、図３９に示した結果のうち、第１の系列（ｉ）が入力された場合、図４０に示すように、先頭から順に、各文字のその文字を含む前後ｎ（ここではｎ＝３）文字の表記、それらの文字の左右対称情報、前ｎ文字についてのＢＩＯ判定結果を素性としてモデル記憶部５４に記憶されたモデルに入力してＢＩＯ判定結果を得て、顔文字タグ“Ｂ”および“Ｉ”と判定された文字列「(^^)」をＸＭＬ形式「<face>(^^)</face>」で出力する。一方、図３９に示した結果のうち、第２の系列（ii）が入力された場合、図４１に示すように、先頭から順に、各文字のその文字を含む前後ｎ（ここではｎ＝３）文字の表記、それらの文字の左右対称情報、前ｎ文字についてのＢＩＯ判定結果を素性としてモデル記憶部５４に記憶されたモデルに入力してＢＩＯ判定結果を得るが、ここでは顔文字タグと判定された文字列はなく、何も出力されない。

図４２は左右対称文字列抽出処理の一例、ここでは顔文字を構成する左右対称文字列がそのほぼ中央に、“口”に当たる文字を有する、例えば「(^o^)」、「(^◇^)」のような文字列である場合に有効な処理の流れを示すものである。図中、ｋは処理の基点となるテキスト中の任意の文字の文頭からの文字位置、ｍは当該処理の基点となる文字位置から文頭方向および文末方向に何文字離れたかを示す文字数である。

まず、左右対称文字列抽出部５１は、テキストの先頭文字、即ちｋ＝１の文字位置の文字を基点としてその文頭方向および文末方向に隣接する文字、即ちｍ＝１として（ｋ−ｍ），（ｋ＋ｍ）の文字位置の文字を当該テキストからそれぞれ取得し（ｓ５１〜ｓ５６）、これらが同一文字または対称文字かどうかを判定する（ｓ５７）。但し、ここではｋ−ｍ＝０であり、文字位置「０」には文字が存在しないため、ステップｓ５８を経てステップｓ５２に戻る。なお、同一文字または対称文字かどうかの判定は、顔文字中で使用されることの多い２つの同一文字や一対の対称文字の集合を格納したリストを予め用意しておき、取得したそれぞれの文字に対してリスト内の２つの同一文字および一対の対称文字毎にマッチングを行うことでできる。

次に、左右対称文字列抽出部５１は、テキストの２番目の文字、即ちｋ＝２の文字位置の文字を基点としてその文頭方向および文末方向に隣接する文字、即ち前記同様にｍ＝１として（ｋ−ｍ），（ｋ＋ｍ）の文字位置の文字を当該テキストからそれぞれ取得し（ｓ５２〜ｓ５６）、これらが同一文字または対称文字かどうかを判定する（ｓ５７）。

ここで、左右対称文字列抽出部５１は、（ｋ−ｍ），（ｋ＋ｍ）、即ち文字位置「１」および「３」の文字が同一文字または対称文字であればステップｓ５５に戻り、更にその文頭方向および文末方向に隣接する文字、即ちｍ＝２の場合の（ｋ−ｍ），（ｋ＋ｍ）の文字位置の文字を当該テキストからそれぞれ取得し（ｓ５５，ｓ５６）、これらが同一文字または対称文字かどうかを判定する（ｓ５７）。

この場合、前記同様にｋ−ｍ＝０であり、文字位置「０」には文字が存在しないため、ステップｓ５８に移るが、ｍ＝２であるから、左右対称文字列抽出部５１は、それまでの文頭方向および文末方向の文字の位置である（ｋ−ｍ＋１），（ｋ＋ｍ−１）、ここでは文字位置「１，３」を左右対称文字列に対応する範囲として出力する（ｓ５９）。

以下、左右対称文字列抽出部５１は、前記同様の処理をテキスト中の全ての文字を基点として繰り返す、つまり文字位置ｋがテキストの文末に達するまで繰り返す（ｓ５３）。

なお、ステップｓ５８において、ｍ≧２の場合は、前述した顔文字中の顔部分（“目口目”に該当する部分）のみでも抽出してしまうことになるため、ｍ≧３としても良い。

図４３は左右対称文字列抽出処理の他の例、ここでは顔文字を構成する左右対称文字列がそのほぼ中央に、連続する２つの同一文字または連続する一対の対称文字（通常、２つの“目”に当たる文字）を有する、例えば「(^^)」、「(｀´)」のような文字列である場合に有効な処理の流れを示すものである。図中、（ｉ，ｊ）は処理の基点となる連続する２つの同一文字または連続する一対の対称文字の文字位置、ｍは当該処理の基点となる連続する２つの同一文字または連続する一対の対称文字の文字位置から文頭方向および文末方向に何文字離れたかを示す文字数である。

まず、左右対称文字列抽出部５１は、テキストから連続する２つの同一文字および連続する一対の対称文字を抽出し、それらの文字位置（ｉ，ｊ）を図示しない記憶部に記憶しておく（ｓ６１）。

次に、左右対称文字列抽出部５１は、抽出した前記テキスト中の任意の連続する２つの同一文字または連続する一対の対称文字を基点としてその文頭方向および文末方向に隣接する文字、即ち記憶部から連続する２つの同一文字または連続する一対の対称文字の文字位置（ｉ，ｊ）を一つ取り出し（ｓ６２）、ｍ＝１として（ｉ−ｍ），（ｊ＋ｍ）の文字位置の文字を当該テキストからそれぞれ取得し（ｓ６３〜ｓ５６’）、これらが同一文字または対称文字かどうかを判定する（ｓ５７）。この際、同一文字または対称文字でなければ、ステップｓ５８を経てステップｓ６２に戻る。

なお、取り出された文字位置（ｉ，ｊ）は、その時点で記憶部から消去されるものとする。

次に、左右対称文字列抽出部５１は、記憶部から別の連続する２つの同一文字または連続する一対の対称文字の文字位置（ｉ，ｊ）を一つ取り出し（ｓ６２）、前記同様にｍ＝１として（ｉ−ｍ），（ｊ＋ｍ）の文字位置の文字を当該テキストからそれぞれ取得し（ｓ６３〜ｓ５６’）、これらが同一文字または対称文字かどうかを判定する（ｓ５７）。

この際、左右対称文字列抽出部５１は、同一文字または対称文字であればステップｓ５５に戻り、更にその文頭方向および文末方向に隣接する文字、即ちｍ＝２の場合の（ｉ−ｍ），（ｊ＋ｍ）の文字位置の文字を当該テキストからそれぞれ取得し（ｓ５５，ｓ５６’）、これらが同一文字または対称文字かどうかを判定する（ｓ５７）。

ここで、同一文字または対称文字でなければ、左右対称文字列抽出部１１はステップｓ５８に移り、ｍ＝２であるから、それまでの文頭方向および文末方向の文字の位置である（ｉ−ｍ＋１），（ｊ＋ｍ−１）を左右対称文字列に対応する範囲として出力する（ｓ５９’）。

以下、前記同様の処理をテキスト中の連続する２つの同一文字または連続する一対の対称文字の全てを基点として繰り返す、つまり記憶部に記憶された文字位置（ｉ，ｊ）が全てなくなるまで繰り返す（ｓ６３）。

なお、通常、左右対称文字列抽出部５１では、図４２、図４３で説明した処理の両方を実行するものとする（実行の順序はどちらが先でもかまわない。）が、いずれか一方のみ実行することを否定するものではない。

また、図４３で説明した左右対称文字列抽出処理における連続する２つの同一文字または連続する一対の対称文字の代わりに、第４の実施の形態において抽出した顔文字を構成する文字列中の顔部分の文字列を基点として用いることもでき、この場合は必ずしも完全に左右対称でない文字列を含む顔文字の検出も可能となる。

また、本発明は、周知のコンピュータに媒体もしくは通信回線を介して、図６、１２、２０、２７、３５の構成図に示された機能を実現するプログラムあるいは図７、１５、２２、３０、３７のフローチャートに示された手順を備えるプログラムをインストールすることによっても実現可能である。

本発明によってテキスト中の顔文字を検出し、これを削除することで、当該テキストに対する形態素解析の精度を向上させることが可能となる。

従来の顔文字検出技術における素性の説明図従来の顔文字検出装置の一例を示す構成図形態素品詞抽出結果の一例を示す説明図従来の顔文字検出技術によるＢＩＯ判定のようすを示す説明図本発明の顔文字検出技術における素性の説明図本発明の顔文字検出装置の第１の実施の形態を示す構成図図６の顔文字検出装置における処理の流れを示すフローチャートＨＴＭＬタグ検出結果の一例を示す説明図テキスト分割結果の一例を示す説明図図６の顔文字検出装置によるＢＩＯ判定のようすの一例を示す説明図図６の顔文字検出装置によるＢＩＯ判定のようすの他の例を示す説明図本発明の顔文字検出装置の第２の実施の形態を示す構成図文字種抽出のためのテーブルの一例を示す説明図図１２の顔文字検出装置における素性の説明図図１２の顔文字検出装置における処理の流れを示すフローチャート文字種抽出結果の一例を示す説明図テキスト分割結果の一例を示す説明図図１２の顔文字検出装置によるＢＩＯ判定のようすの一例を示す説明図図１２の顔文字検出装置によるＢＩＯ判定のようすの他の例を示す説明図本発明の顔文字検出装置の第３の実施の形態を示す構成図図２０の顔文字検出装置における素性の説明図図２０の顔文字検出装置における処理の流れを示すフローチャートＨＴＭＬタグ情報生成結果の一例を示す説明図テキスト分割結果の一例を示す説明図図２０の顔文字検出装置によるＢＩＯ判定のようすの一例を示す説明図図２０の顔文字検出装置によるＢＩＯ判定のようすの他の例を示す説明図本発明の顔文字検出装置の第４の実施の形態を示す構成図顔部分辞書の一例を示す説明図図２７の顔文字検出装置における素性の説明図図２７の顔文字検出装置における処理の流れを示すフローチャート顔部分情報生成結果の一例を示す説明図テキスト分割結果の一例を示す説明図図２７の顔文字検出装置によるＢＩＯ判定のようすの一例を示す説明図図２７の顔文字検出装置によるＢＩＯ判定のようすの他の例を示す説明図本発明の顔文字検出装置の第５の実施の形態を示す構成図図３５の顔文字検出装置における素性の説明図図３５の顔文字検出装置における処理の流れを示すフローチャート左右対称情報生成結果の一例を示す説明図テキスト分割結果の一例を示す説明図図３５の顔文字検出装置によるＢＩＯ判定のようすの一例を示す説明図図３５の顔文字検出装置によるＢＩＯ判定のようすの他の例を示す説明図左右対称文字列抽出処理の一例を示すフローチャート左右対称文字列抽出処理の他の例を示すフローチャート

符号の説明

１：ＨＴＭＬタグ除去部、３：文字分割部、１１：ＨＴＭＬタグ検出部、１２：ＨＴＭＬタグ記憶部、１３，２２，３２，４４，５３：テキスト分割部、１４，２３，３３，４５，５４：モデル記憶部、１５，２４，３４，４６，５５：ＢＩＯ判定部、２１：文字種抽出部、３１：ＨＴＭＬタグ情報生成部、４１：顔部分辞書記憶部、４２：顔部分抽出部、４３：顔部分情報生成部、５１：左右対称文字列検出部、５２：左右対称情報生成部。

Claims

ＨＴＭＬタグを含むテキスト中の顔文字を検出する装置であって、
テキスト中のＨＴＭＬタグをその出現位置とともに検出するＨＴＭＬタグ検出部と、
検出されたＨＴＭＬタグを前記テキストにおけるその出現位置とともに記憶するＨＴＭＬタグ記憶部と、
前記テキストからＨＴＭＬタグを除去するＨＴＭＬタグ除去部と、
ＨＴＭＬタグが除去された前記テキストを文字単位に分割する文字分割部と、
ＨＴＭＬタグが除去され、文字単位に分割された前記テキストを、前記ＨＴＭＬタグ記憶部に記憶された前記テキスト中のＨＴＭＬタグの出現位置で複数の系列に分割するテキスト分割部と、
少なくともテキスト中の各文字の表記を素性として、当該テキスト中の各文字が顔文字を構成する文字列の最初の文字を意味する“Ｂ”、顔文字を構成する文字列の２番目以降の文字を意味する“Ｉ”、顔文字以外の文字を意味する“Ｏ”のいずれに当たるかを判定するためのモデルを記憶するモデル記憶部と、
ＨＴＭＬタグが除去され、文字単位に分割され、更に複数の系列に分割された前記テキスト中の各文字の表記を少なくとも入力とし、前記モデル記憶部に記憶されたモデルを用いて、前記テキスト中の各文字が前記“Ｂ”、“Ｉ”、“Ｏ”のいずれに当たるかを判定するＢＩＯ判定部とを備えた
ことを特徴とする顔文字検出装置。
前記に加え、
ＨＴＭＬタグが除去され、文字単位に分割された前記テキスト中の各文字の文字種を抽出し、これを当該テキスト中の各文字の表記に対応させて出力する文字種抽出部を備え、
テキスト分割部は、ＨＴＭＬタグが除去され、文字単位に分割され、更に各文字毎にその文字種が付与された前記テキストを、前記ＨＴＭＬタグ記憶部に記憶された前記テキスト中のＨＴＭＬタグの出現位置で複数の系列に分割し、
モデル記憶部は、少なくともテキスト中の各文字の表記およびその文字種を素性として、当該テキスト中の各文字が顔文字を構成する文字列の最初の文字を意味する“Ｂ”、顔文字を構成する文字列の２番目以降の文字を意味する“Ｉ”、顔文字以外の文字を意味する“Ｏ”のいずれに当たるかを判定するためのモデルを記憶し、
ＢＩＯ判定部は、ＨＴＭＬタグが除去され、文字単位に分割され、更に複数の系列に分割された前記テキスト中の各文字の表記およびその文字種を入力とし、前記モデル記憶部に記憶されたモデルを用いて、前記テキスト中の各文字が前記“Ｂ”、“Ｉ”、“Ｏ”のいずれに当たるかを判定する
ことを特徴とする請求項１に記載の顔文字検出装置。
前記に加え、
ＨＴＭＬタグが除去され、文字単位に分割された前記テキスト中の各文字の直前および直後にＨＴＭＬタグがあったかどうか、あった場合はどのようなＨＴＭＬタグかを表すＨＴＭＬタグ情報を、前記ＨＴＭＬタグ記憶部に記憶された前記テキスト中のＨＴＭＬタグとその出現位置に基づいて生成するＨＴＭＬタグ情報生成部を備え、
テキスト分割部は、ＨＴＭＬタグが除去され、文字単位に分割され、更に各文字毎にその直前および直後のＨＴＭＬタグ情報が付与された前記テキストを、前記ＨＴＭＬタグ記憶部に記憶された前記テキスト中のＨＴＭＬタグの出現位置で複数の系列に分割し、
モデル記憶部は、少なくともテキスト中の各文字の表記並びにその直前および直後のＨＴＭＬタグ情報を素性として、当該テキスト中の各文字が顔文字を構成する文字列の最初の文字を意味する“Ｂ”、顔文字を構成する文字列の２番目以降の文字を意味する“Ｉ”、顔文字以外の文字を意味する“Ｏ”のいずれに当たるかを判定するためのモデルを記憶し、
ＢＩＯ判定部は、ＨＴＭＬタグが除去され、文字単位に分割され、更に複数の系列に分割された前記テキスト中の各文字の表記並びにその直前および直後のＨＴＭＬタグ情報を入力とし、前記モデル記憶部に記憶されたモデルを用いて、前記テキスト中の各文字が前記“Ｂ”、“Ｉ”、“Ｏ”のいずれに当たるかを判定する
ことを特徴とする請求項１に記載の顔文字検出装置。
前記に加え、
顔文字を構成する文字列中の顔部分の文字列を登録してなる顔部分辞書を記憶する顔部分辞書記憶部と、
ＨＴＭＬタグが除去された前記テキストから前記顔部分辞書記憶部に記憶された顔部分辞書に登録されている顔部分の文字列に対応する範囲を抽出する顔部分抽出部と、
ＨＴＭＬタグが除去され、文字単位に分割された前記テキスト中の各文字が顔部分であるか否かを示す顔部分情報を、抽出された前記テキストにおける顔部分の範囲に基づいて生成する顔部分情報生成部とを備え、
テキスト分割部は、ＨＴＭＬタグが除去され、文字単位に分割され、更に各文字毎にその顔部分情報が付与された前記テキストを、前記ＨＴＭＬタグ記憶部に記憶された前記テキスト中のＨＴＭＬタグの出現位置で複数の系列に分割し、
モデル記憶部は、少なくともテキスト中の各文字の表記およびその顔部分情報を素性として、当該テキスト中の各文字が顔文字を構成する文字列の最初の文字を意味する“Ｂ”、顔文字を構成する文字列の２番目以降の文字を意味する“Ｉ”、顔文字以外の文字を意味する“Ｏ”のいずれに当たるかを判定するためのモデルを記憶し、
ＢＩＯ判定部は、ＨＴＭＬタグが除去され、文字単位に分割され、更に複数の系列に分割された前記テキスト中の各文字の表記およびその顔部分情報を入力とし、前記モデル記憶部に記憶されたモデルを用いて、前記テキスト中の各文字が前記“Ｂ”、“Ｉ”、“Ｏ”のいずれに当たるかを判定する
ことを特徴とする請求項１に記載の顔文字検出装置。
前記に加え、
ＨＴＭＬタグが除去された前記テキストから、２つの同一文字または一対の対称文字の少なくとも一方を含み、全体として左右対称性を有する左右対称文字列に対応する範囲を抽出する左右対称文字列抽出部と、
ＨＴＭＬタグが除去され、文字単位に分割された前記テキスト中の各文字が左右対称文字列に含まれるか否かを示す左右対称情報を、抽出された前記テキストにおける左右対称文字列の範囲に基づいて生成する左右対称情報生成部とを備え、
テキスト分割部は、ＨＴＭＬタグが除去され、文字単位に分割され、更に各文字毎にその左右対称情報が付与された前記テキストを、前記ＨＴＭＬタグ記憶部に記憶された前記テキスト中のＨＴＭＬタグの出現位置で複数の系列に分割し、
モデル記憶部は、少なくともテキスト中の各文字の表記およびその左右対称情報を素性として、当該テキスト中の各文字が顔文字を構成する文字列の最初の文字を意味する“Ｂ”、顔文字を構成する文字列の２番目以降の文字を意味する“Ｉ”、顔文字以外の文字を意味する“Ｏ”のいずれに当たるかを判定するためのモデルを記憶し、
ＢＩＯ判定部は、ＨＴＭＬタグが除去され、文字単位に分割され、更に複数の系列に分割された前記テキスト中の各文字の表記およびその左右対称情報を入力とし、前記モデル記憶部に記憶されたモデルを用いて、前記テキスト中の各文字が前記“Ｂ”、“Ｉ”、“Ｏ”のいずれに当たるかを判定する
ことを特徴とする請求項１に記載の顔文字検出装置。
ＨＴＭＬタグを含むテキスト中の顔文字を検出する方法であって、
ＨＴＭＬタグ検出部が、テキスト中のＨＴＭＬタグをその出現位置とともに検出し、ＨＴＭＬタグ記憶部に記憶するステップと、
ＨＴＭＬタグ除去部が、前記テキストからＨＴＭＬタグを除去するステップと、
文字分割部が、ＨＴＭＬタグが除去された前記テキストを文字単位に分割するステップと、
テキスト分割部が、ＨＴＭＬタグが除去され、文字単位に分割された前記テキストを、前記ＨＴＭＬタグ記憶部に記憶された前記テキスト中のＨＴＭＬタグの出現位置で複数の系列に分割するステップと、
ＢＩＯ判定部が、ＨＴＭＬタグが除去され、文字単位に分割され、更に複数の系列に分割された前記テキスト中の各文字の表記を少なくとも入力とし、少なくともテキスト中の各文字の表記を素性として、当該テキスト中の各文字が顔文字を構成する文字列の最初の文字を意味する“Ｂ”、顔文字を構成する文字列の２番目以降の文字を意味する“Ｉ”、顔文字以外の文字を意味する“Ｏ”のいずれに当たるかを判定するためのモデルを用いて、前記テキスト中の各文字が前記“Ｂ”、“Ｉ”、“Ｏ”のいずれに当たるかを判定するステップとを含む
ことを特徴とする顔文字検出方法。
前記に加え、
文字種抽出部が、ＨＴＭＬタグが除去され、文字単位に分割された前記テキスト中の各文字の文字種を抽出し、これを当該テキスト中の各文字の表記に対応させて出力するステップを含み、
テキスト分割処理ステップは、ＨＴＭＬタグが除去され、文字単位に分割され、更に各文字毎にその文字種が付与された前記テキストを、前記ＨＴＭＬタグ記憶部に記憶された前記テキスト中のＨＴＭＬタグの出現位置で複数の系列に分割し、
ＢＩＯ判定処理ステップは、ＨＴＭＬタグが除去され、文字単位に分割され、更に複数の系列に分割された前記テキスト中の各文字の表記およびその文字種を入力とし、少なくともテキスト中の各文字の表記およびその文字種を素性として、当該テキスト中の各文字が顔文字を構成する文字列の最初の文字を意味する“Ｂ”、顔文字を構成する文字列の２番目以降の文字を意味する“Ｉ”、顔文字以外の文字を意味する“Ｏ”のいずれに当たるかを判定するためのモデルを用いて、前記テキスト中の各文字が前記“Ｂ”、“Ｉ”、“Ｏ”のいずれに当たるかを判定する
ことを特徴とする請求項６に記載の顔文字検出方法。
前記に加え、
ＨＴＭＬタグ情報生成部が、ＨＴＭＬタグが除去され、文字単位に分割された前記テキスト中の各文字の直前および直後にＨＴＭＬタグがあったかどうか、あった場合はどのようなＨＴＭＬタグかを表すＨＴＭＬタグ情報を、前記ＨＴＭＬタグ記憶部に記憶された前記テキスト中のＨＴＭＬタグとその出現位置に基づいて生成するステップを含み、
テキスト分割処理ステップは、ＨＴＭＬタグが除去され、文字単位に分割され、更に各文字毎にその直前および直後のＨＴＭＬタグ情報が付与された前記テキストを、前記ＨＴＭＬタグ記憶部に記憶された前記テキスト中のＨＴＭＬタグの出現位置で複数の系列に分割し、
ＢＩＯ判定処理ステップは、ＨＴＭＬタグが除去され、文字単位に分割され、更に複数の系列に分割された前記テキスト中の各文字の表記並びにその直前および直後のＨＴＭＬタグ情報を入力とし、少なくともテキスト中の各文字の表記並びにその直前および直後のＨＴＭＬタグ情報を素性として、当該テキスト中の各文字が顔文字を構成する文字列の最初の文字を意味する“Ｂ”、顔文字を構成する文字列の２番目以降の文字を意味する“Ｉ”、顔文字以外の文字を意味する“Ｏ”のいずれに当たるかを判定するためのモデルを用いて、前記テキスト中の各文字が前記“Ｂ”、“Ｉ”、“Ｏ”のいずれに当たるかを判定する
ことを特徴とする請求項６に記載の顔文字検出方法。
前記に加え、
顔部分抽出部が、ＨＴＭＬタグが除去された前記テキストから顔部分辞書に登録されている顔文字を構成する文字列中の顔部分の文字列に対応する範囲を抽出するステップと、
顔部分情報生成部が、ＨＴＭＬタグが除去され、文字単位に分割された前記テキスト中の各文字が顔部分であるか否かを示す顔部分情報を、抽出された前記テキストにおける顔部分の範囲に基づいて生成するステップとを含み、
テキスト分割処理ステップは、ＨＴＭＬタグが除去され、文字単位に分割され、更に各文字毎にその顔部分情報が付与された前記テキストを、前記ＨＴＭＬタグ記憶部に記憶された前記テキスト中のＨＴＭＬタグの出現位置で複数の系列に分割し、
ＢＩＯ判定処理ステップは、ＨＴＭＬタグが除去され、文字単位に分割され、更に複数の系列に分割された前記テキスト中の各文字の表記およびその顔部分情報を入力とし、少なくともテキスト中の各文字の表記およびその顔部分情報を素性として、当該テキスト中の各文字が顔文字を構成する文字列の最初の文字を意味する“Ｂ”、顔文字を構成する文字列の２番目以降の文字を意味する“Ｉ”、顔文字以外の文字を意味する“Ｏ”のいずれに当たるかを判定するためのモデルを用いて、前記テキスト中の各文字が前記“Ｂ”、“Ｉ”、“Ｏ”のいずれに当たるかを判定する
ことを特徴とする請求項６に記載の顔文字検出方法。
前記に加え、
左右対称文字列抽出部が、ＨＴＭＬタグが除去された前記テキストから、２つの同一文字または一対の対称文字の少なくとも一方を含み、全体として左右対称性を有する左右対称文字列に対応する範囲を抽出するステップと、
左右対称情報生成部が、ＨＴＭＬタグが除去され、文字単位に分割された前記テキスト中の各文字が左右対称文字列に含まれるか否かを示す左右対称情報を、抽出された前記テキストにおける左右対称文字列の範囲に基づいて生成するステップとを含み、
テキスト分割処理ステップは、ＨＴＭＬタグが除去され、文字単位に分割され、更に各文字毎にその左右対称情報が付与された前記テキストを、前記ＨＴＭＬタグ記憶部に記憶された前記テキスト中のＨＴＭＬタグの出現位置で複数の系列に分割し、
ＢＩＯ判定処理ステップは、ＨＴＭＬタグが除去され、文字単位に分割され、更に複数の系列に分割された前記テキスト中の各文字の表記およびその左右対称情報を入力とし、少なくともテキスト中の各文字の表記およびその左右対称情報を素性として、当該テキスト中の各文字が顔文字を構成する文字列の最初の文字を意味する“Ｂ”、顔文字を構成する文字列の２番目以降の文字を意味する“Ｉ”、顔文字以外の文字を意味する“Ｏ”のいずれに当たるかを判定するためのモデルを用いて、前記テキスト中の各文字が前記“Ｂ”、“Ｉ”、“Ｏ”のいずれに当たるかを判定する
ことを特徴とする請求項６に記載の顔文字検出方法。
コンピュータを、請求項１乃至５のいずれかに記載の顔文字検出装置の各手段として機能させるためのプログラム。
コンピュータに、請求項６乃至１０のいずれかに記載の顔文字検出方法の各処理ステップを実行させるためのプログラム。
請求項１１または１２に記載のプログラムを記録したことを特徴とするコンピュータ読み取り可能な記録媒体。