JP2010092350A - 顔文字検出装置、その方法、プログラム及び記録媒体 - Google Patents

顔文字検出装置、その方法、プログラム及び記録媒体 Download PDF

Info

Publication number
JP2010092350A
JP2010092350A JP2008262869A JP2008262869A JP2010092350A JP 2010092350 A JP2010092350 A JP 2010092350A JP 2008262869 A JP2008262869 A JP 2008262869A JP 2008262869 A JP2008262869 A JP 2008262869A JP 2010092350 A JP2010092350 A JP 2010092350A
Authority
JP
Japan
Prior art keywords
html tag
character
text
html
emoticon
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2008262869A
Other languages
English (en)
Other versions
JP5026384B2 (ja
Inventor
Toru Hirano
徹 平野
Yoshihiro Matsuo
義博 松尾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NTT Inc
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2008262869A priority Critical patent/JP5026384B2/ja
Publication of JP2010092350A publication Critical patent/JP2010092350A/ja
Application granted granted Critical
Publication of JP5026384B2 publication Critical patent/JP5026384B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

【課題】テキストからの顔文字検出において、HTMLソーステキストにおける顔文字の出現傾向を捉え、検出精度を向上すること。
【解決手段】HTMLタグ検出部11により、テキスト中のHTMLタグをその出現位置とともに検出してHTMLタグ記憶部12に記憶し、HTMLタグが除去され、文字単位に分割された前記テキスト中の各文字の直前および直後にHTMLタグがあったかどうかを表すHTMLタグ情報を、HTMLタグ情報生成部13により、HTMLタグ記憶部12に記憶されたHTMLタグとその出現位置に基づいて生成し、これを当該テキスト中の各文字の表記とともに素性として用いて、BIO判定部15により、モデル記憶部14に記憶されたモデルを用いて顔文字を構成する最初の文字“B”、顔文字を構成する2番目以降の文字“I”、顔文字以外の文字“O”のいずれに当たるかを機械学習で判定する。
【選択図】図6

Description

本発明は、HTMLソーステキスト等のHTMLタグを含むテキスト中の顔文字を検出する技術に関する。
顔文字とは、テキスト中で使用可能な文字を組み合わせて様々な感情等に対応する擬似的な人の表情を表すようにしたもので、パーソナルコンピュータや携帯電話における電子メールなどのテキストベースのコミュニケーションツールにおいて、書き手(送信側)の感情等を読み手(受信側)に伝える手段として用いられることが多い。例えば、「今日はとっても楽しかったです。(^^)明日も楽しみ!」というテキスト中の文字列「(^^)」が顔文字であり、この場合、「喜び」の感情を表している。
従来、テキスト中の顔文字を検出する技術としては、既存のHTMLタグ除去技術、形態素解析技術を利用してテキスト中の各文字が属する形態素の品詞を抽出し、これを当該テキスト中の各文字の表記とともに素性として用いて、顔文字を構成する文字列の最初の文字を意味する“B”、顔文字を構成する文字列の2番目以降の文字を意味する“I”、顔文字以外の文字を意味する“O”(以下、これらを顔文字タグと呼ぶ。)のいずれに当たるかを機械学習で推定(判定)する方法があった(非特許文献1参照)。例えば、「今日はとっても楽しかったです。(^^)<br>明日も楽しみ!<br>」というテキストにおいて、文字「(」が顔文字タグ“B”であることを推定する場合は、図1に示すような太線内の情報を素性として利用していた。
図2は前述した従来の顔文字検出技術にかかる装置の一例を示すもので、HTMLタグ除去部1、形態素解析部2、文字分割部3、形態素品詞抽出部4、モデル記憶部5およびBIO判定部6からなる。
HTMLタグ除去部1では、既存のHTMLタグ除去技術により、入力されたテキストからHTMLタグを除去する。例えば、入力されたテキストが「今日はとっても楽しかったです。(^^)<br>明日も楽しみ!<br>」の場合、HTMLタグ“<br>”が除かれ、「今日はとっても楽しかったです。(^^)明日も楽しみ!」となる。
形態素解析部2では、既存の形態素解析技術により、HTMLタグ除去部1でHTMLタグが除去されたテキストを単語に区切り、さらに各単語に品詞を付与する。例えば、HTMLタグ除去後のテキストが「今日はとっても楽しかったです。(^^)明日も楽しみ!」の場合、区切り記号を“/”、品詞を“[品詞]”で表すと、「今日[名詞]/は[助詞]/とっても[副詞]/楽し[形容詞]/かった[形容詞接尾辞]/です[助動詞]/。[記号-句点]/([記号-括弧開]/^[記号-その他]/^[記号-その他]/)[記号-括弧閉]/明日[名詞]/も[助詞]/楽しみ[名詞]/![記号-その他]」となる。
文字分割部3では、HTMLタグ除去部1でHTMLタグが除去されたテキストを文字単位(文字コード単位)に分割する。例えば、前記同様、HTMLタグ除去後のテキストが「今日はとっても楽しかったです。(^^)明日も楽しみ!」の場合、区切り記号を“/”で表すと、「今/日/は/と/っ/て/も/楽/し/か/っ/た/で/す/。/(/^/^/)/明/日/も/楽/し/み/!」となる。
形態素品詞抽出部4では、形態素解析部2での結果と文字分割部3での結果とを入力とし、入力されたテキスト中の各文字の表記および各文字が属する形態素の品詞を抽出する。例えば、形態素解析部2での結果が「今日[名詞]/は[助詞]/とっても[副詞]/楽し[形容詞]/かった[形容詞接尾辞]/です[助動詞]/。[記号-句点]/([記号-括弧開]/^[記号-その他]/^[記号-その他]/)[記号-括弧閉]/明日[名詞]/も[助詞]/楽しみ[名詞]/![記号-その他]」であり、文字分割部3での結果が「今/日/は/と/っ/て/も/楽/し/か/っ/た/で/す/。/(/^/^/)/明/日/も/楽/し/み/!」である場合、図3に示すような結果が得られる。
モデル記憶部5では、予め機械学習により生成した、少なくともテキスト中の各文字の表記および各文字が属する形態素の品詞を素性、詳細には図1に示したようにテキスト中の各文字のその文字を含む前後n(ここではn=3)文字の表記、それらの形態素の品詞および前n文字についてのBIO判定結果を素性として、当該テキスト中の各文字が顔文字タグ“B”、“I”、“O”のいずれに当たるかを判定するためのモデルを記憶している。但し、使用する機械学習によっては、前n文字についてのBIO判定結果を明示的に与える必要はない。
BIO判定部6では、形態素品詞抽出部4での結果を入力とし、モデル記憶部5に記憶されたモデルを用いて、テキスト中の各文字について、その先頭から順に顔文字タグ“B”、“I”、“O”のいずれに当たるかを判定し、顔文字タグ“B”および“I”に対応する文字列を検出結果として出力する。例えば、図3に示した結果が入力された場合、図4に示すように、先頭から順に、各文字のその文字を含む前後n(ここではn=3)文字の表記、それらの形態素の品詞および前n文字についてのBIO判定結果を素性としてモデル記憶部5に記憶されたモデルに入力してBIO判定結果を得て、顔文字タグ“B”および“I”と判定された文字列「(^^)」を、例えばXML形式「<face>(^^)</face>」で出力する。
モデル記憶部5に記憶するモデルは、テキスト集合の各テキストに対し、前記HTMLタグ除去部1、形態素解析部2、文字分割部3、形態素品詞抽出部4での処理を行い、その結果として得られる、HTMLタグが除去され、文字単位に分割されたテキスト中の各文字の表記および各文字が属する形態素の品詞の情報と、前記テキスト中の各文字について前記顔文字タグ“B”、“I”、“O”のいずれかに当たるかを人手により判断した結果としての情報とを用い、既存の機械学習によって予め作成したものである。
この際、使用する機械学習としてはどのようなものでも良いが、系列ラベリング問題のためのものが望ましい。系列ラベリング問題とは、与えられた入力トークン列x=(x1,x2,…xN)に対して、適切な出力ラベル列y=(y1,y2,…yN)を対応づける問題である。
田中裕紀、高村大也、奥村学、「文字ベースのコミュニケーションにおける顔文字に関する研究」、言語処理学会第10回年次大会、D4−3、2004
ところで、HTMLソーステキストの場合、顔文字は“<br>”などのHTMLタグの直前に出現することが多い。例えば、「今日はとっても楽しかったです。(^^)<br>」というテキストでは、顔文字「(^^)」はHTMLタグ“<br>”の直前に出現している。
前述した従来の顔文字検出技術では、入力されたテキストにHTMLタグが含まれている場合、前処理でHTMLタグを除去し、その情報を全く利用していないため、適切に顔文字を検出できないという問題があった。
本発明の目的は、テキストからの顔文字検出において、HTMLソーステキストにおける顔文字の出現傾向を捉え、検出精度を向上することにある。
本発明では、前記目的を達成するため、HTMLタグを含むテキスト中のHTMLタグをその出現位置とともに検出して記憶しておき、一方、前記テキストからHTMLタグを除去するとともに文字単位に分割し、該HTMLタグが除去され、文字単位に分割された前記テキスト中の各文字の直前および直後にHTMLタグがあったかどうか、あった場合はどのようなHTMLタグかを表すHTMLタグ情報を、前記記憶した前記テキストにおけるHTMLタグの出現位置に基づいて生成し、これを当該テキスト中の各文字の表記とともに素性として用いて、顔文字を構成する文字列の最初の文字を意味する“B”、顔文字を構成する文字列の2番目以降の文字を意味する“I”、顔文字以外の文字を意味する“O”のいずれに当たるかを機械学習で推定(判定)することを特徴とする。例えば、「今日はとっても楽しかったです。(^^)<br>明日も楽しみ!<br>」というテキストにおいて、文字「(」が顔文字タグ“B”であることを推定する場合は、図5に示すような太線内の情報を素性として利用する。
本発明によれば、テキスト中の各文字の表記とともにその直前および直後にHTMLタグがあったかどうかを表すHTMLタグ情報を素性として機械学習で推定(判定)するため、HTMLソーステキストにおける顔文字の出現傾向を捉え、検出精度を向上することが可能となる。
図6は本発明の顔文字検出装置の実施の形態の一例を示すもので、図中、従来例と同一構成部分は同一符号をもって表す。即ち、1はHTMLタグ除去部、3は文字分割部、11はHTMLタグ検出部、12はHTMLタグ記憶部、13はHTMLタグ情報生成部、14はモデル記憶部、15はBIO判定部である。
HTMLタグ検出部11は、HTMLタグを含むテキストからHTMLタグを検出し、該検出したHTMLタグの先頭の文字位置を出現位置として取得する。ここで、HTMLタグを検出する具体的な方法としては、テキスト中で使用されるHTMLタグの集合を格納したリストを予め用意しておき、入力されたテキストに対してリスト内のHTMLタグ毎にパターンマッチングを行うことでできる。また、入力されたテキストはそのままHTMLタグ除去部1へ出力される。
HTMLタグ記憶部12は、HTMLタグ検出部11で検出されたHTMLタグを前記テキストにおけるその出現位置とともに記憶する。また、この際、後述するHTMLタグ除去後のテキストにおける文字位置との整合を図るため、検出したHTMLタグの文字数を併せて記憶しておくものとする。なお、HTMLタグの文字数は、パターンマッチングの際にHTMLタグと一致した文字列の先頭および末尾の文字位置の差から求める外、前述したHTMLタグのリストにおいて予め各HTMLタグに対応づけてその文字数を格納しておき、ここから読み出すようにしても良い。
HTMLタグ情報生成部13は、HTMLタグ除去部1でHTMLタグが除去され、文字分割部3で文字単位(文字コード単位)に分割されたテキストと、HTMLタグ記憶部12に記憶されたテキスト中のHTMLタグ、その出現位置および文字数とを入力として、HTMLタグが除去され、文字単位に分割されたテキスト中の各文字の直前および直後にHTMLタグがあったかどうかを判定し、あった場合はそのHTMLタグを、また、なかった場合は無しを意味するHTMLタグ(ここではNULL)をHTMLタグ情報として、当該テキスト中の各文字の表記に対応させて出力する。
詳細には、HTMLタグが除去され、文字単位に分割されたテキスト中の一の文字の直前の文字位置および直後の文字位置、実際には当該文字の文字位置およびこれに1を加えた文字位置と、前記HTMLタグ記憶部12に記憶された前記テキスト中の各HTMLタグの出現位置(タグの先頭の文字位置)とを順次比較し、一致する場合はそのHTMLタグをHTMLタグ情報として出力し、また、一致しない場合はタグ無しを意味するHTMLタグ(NULL)をHTMLタグ情報として出力し、これをテキスト中の全ての文字について繰り返し行う。但し、この際、テキスト中で最初に出現したHTMLタグの出現位置はHTMLタグ記憶部12に記憶された値そのものを用いるが、2つ目以降に出現したHTMLタグの出現位置については、HTMLタグ記憶部12に記憶された値から、それ以前に出現したHTMLタグの文字数の和を差し引いた値を用いるものとする。
モデル記憶部14は、予め機械学習により生成した、少なくともテキスト中の各文字の表記並びにその直前および直後のHTMLタグ情報を素性、詳細には図5に示したようにテキスト中の各文字のその文字を含む前後n(ここではn=3)文字の表記、それらの直前および直後のHTMLタグ情報、更には前n文字についてのBIO判定結果を素性として、当該テキスト中の各文字が顔文字タグ“B”、“I”、“O”のいずれに当たるかを判定するためのモデルを記憶している。但し、使用する機械学習によっては、前n文字についてのBIO判定結果を明示的に与える必要はない。
BIO判定部15は、HTMLタグ情報生成部13での結果を入力とし、モデル記憶部14に記憶されたモデルを用いて、テキスト中の各文字について、その先頭から順に顔文字タグ“B”、“I”、“O”のいずれに当たるかを判定し、顔文字タグ“B”および“I”に対応する文字列を検出結果として出力、例えば顔文字の開始タグ“<face>”と顔文字の終了タグ“</face>”との間に顔文字タグ“B”および“I”に対応する文字列「xxxx」を記述したXML形式「<face>xxxx</face>」で出力する。
モデル記憶部14に記憶するモデルは、テキスト集合の各テキストに対し、前記HTMLタグ検出部11、HTMLタグ記憶部12、HTMLタグ除去部1、文字分割部3、HTMLタグ情報生成部13での処理を行い、その結果として得られる、HTMLタグが除去され、文字単位に分割されたテキスト中の各文字の表記並びにその直前および直後のHTMLタグ情報と、前記テキスト中の各文字について前記顔文字タグ“B”、“I”、“O”のいずれかに当たるかを人手により判断した結果としての情報とを用い、既存の機械学習によって予め作成したものである。この際、使用する機械学習としてはどのようなものでも良いが、系列ラベリング問題のためのものが望ましい。
図7は本発明の顔文字検出装置における処理の流れを示すもので、以下、例を挙げてその動作を詳細に説明する。
HTMLタグ検出部11に入力されたテキスト(HTMLタグを含むテキスト)は、当該テキスト中のHTMLタグが検出され、その出現位置および文字数が該検出されたHTMLタグとともにHTMLタグ記憶部12に出力されて記憶される(s1)。例えば、入力テキストが「今日はとっても楽しかったです。(^^)<br>明日も楽しみ!<br>」であれば、1つ目のHTMLタグ“<br>”の先頭の文字位置は「20」であり、2つ目のHTMLタグ“<br>”の先頭の文字位置は「31」であり、文字数はいずれも「4」であるから、図8に示すような結果が得られる。なお、図8中の「タグ番号」とは、後述する説明のために出現順に単純に付与した、テキスト中のHTMLタグの識別番号である。また、入力されたテキストはそのままHTMLタグ除去部1へ出力される。
HTMLタグ除去部1に入力されたテキストは、既存のHTMLタグ除去技術により、当該テキスト中のHTMLタグが除去され、文字分割部3に出力される(s2)。例えば、入力テキストが「今日はとっても楽しかったです。(^^)<br>明日も楽しみ!<br>」であれば、HTMLタグ“<br>”が除かれ、「今日はとっても楽しかったです。(^^)明日も楽しみ!」となる。
文字分割部3では、HTMLタグ除去部1でHTMLタグが除去されたテキストを文字単位(文字コード単位)に分割し、HTMLタグ情報生成部13に出力する(s3)。例えば、HTMLタグ除去後のテキストが「今日はとっても楽しかったです。(^^)明日も楽しみ!」の場合、区切り記号を“/”で表すと、「今/日/は/と/っ/て/も/楽/し/か/っ/た/で/す/。/(/^/^/)/明/日/も/楽/し/み/!」となる。
HTMLタグ情報生成部13では、HTMLタグ記憶部12に記憶されたテキスト中のHTMLタグ、その出現位置および文字数に基づいて、HTMLタグ除去部1でHTMLタグが除去され、文字分割部3で文字単位に分割されたテキスト中の各文字について、その直前および直後にHTMLタグがあったかどうかを判定し、あった場合はそのHTMLタグを、また、なかった場合は無しを意味するHTMLタグ(NULL)をHTMLタグ情報として、当該テキスト中の各文字の表記に対応させてBIO判定部15に出力する(s4)。
例えば、HTMLタグ記憶部12に記憶されたテキスト中のHTMLタグ、その出現位置および文字数が図8に示したものであり、HTMLタグが除去され、文字単位に分割されたテキストが「今/日/は/と/っ/て/も/楽/し/か/っ/た/で/す/。/(/^/^/)/明/日/も/楽/し/み/!」であった場合、図9に示すような結果が得られる。
即ち、文字位置「19」の文字「)」の直後の文字位置、つまり「19」に1を加えた文字位置「20」と、タグ番号1のHTMLタグの出現位置「20」とが一致するため、文字位置「19」の文字「)」の直後のHTMLタグ情報は、当該タグ番号1のHTMLタグ“<br>”となる。同様に、文字位置「20」の文字「明」の直前の文字位置、つまり当該文字「明」の文字位置「20」と、タグ番号1のHTMLタグの出現位置「20」とが一致するため、文字位置「20」の文字「明」の直前のHTMLタグ情報も、当該タグ番号1のHTMLタグ“<br>”となる。一方、文字位置「26」の文字「!」の直後の文字位置、つまり「26」に1を加えた文字位置「27」と、タグ番号2のHTMLタグの出現位置、ここでは「31」からそれ以前に出現したタグ番号1のHTMLタグの文字数「4」を差し引いた値である「27」とが一致するため、文字位置「26」の文字「!」の直後のHTMLタグ情報は、当該タグ番号2のHTMLタグ“<br>”となる。
BIO判定部15では、HTMLタグ情報生成部13での結果を入力とし、モデル記憶部14に記憶されたモデルを用いて、テキスト中の各文字について、その先頭から順に顔文字タグ“B”、“I”、“O”のいずれに当たるかを判定し、顔文字タグ“B”および“I”に対応する文字列を検出結果として出力する(s5)。例えば、図9に示した結果が入力された場合、図10に示すように、先頭から順に、各文字のその文字を含む前後n(ここではn=3)文字の表記、それらの直前および直後のHTMLタグ情報、更には前n文字についてのBIO判定結果を素性としてモデル記憶部14に記憶されたモデルに入力してBIO判定結果を得て、顔文字タグ“B”および“I”と判定された文字列「(^^)」をXML形式「<face>(^^)</face>」で出力する。
なお、本発明は、周知のコンピュータに媒体もしくは通信回線を介して、図6の構成図に示された機能を実現するプログラムあるいは図7のフローチャートに示された手順を備えるプログラムをインストールすることによっても実現可能である。
本発明によってテキスト中の顔文字を検出し、これを削除することで、当該テキストに対する形態素解析の精度を向上させることが可能となる。
従来の顔文字検出技術における素性の説明図 従来の顔文字検出装置の一例を示す構成図 形態素品詞抽出結果の一例を示す説明図 従来の顔文字検出技術によるBIO判定のようすを示す説明図 本発明の顔文字検出技術における素性の説明図 本発明の顔文字検出装置の実施の形態の一例を示す構成図 本発明の顔文字検出装置における処理の流れを示すフローチャート HTMLタグ検出結果の一例を示す説明図 HTMLタグ情報生成結果の一例を示す説明図 本発明の顔文字検出技術によるBIO判定のようすを示す説明図
符号の説明
1:HTMLタグ除去部、3:文字分割部、11:HTMLタグ検出部、12:HTMLタグ記憶部、13:HTMLタグ情報生成部、14:モデル記憶部、15:BIO判定部。

Claims (7)

  1. HTMLタグを含むテキスト中の顔文字を検出する装置であって、
    テキスト中のHTMLタグをその出現位置とともに検出するHTMLタグ検出部と、
    検出されたHTMLタグを前記テキストにおけるその出現位置とともに記憶するHTMLタグ記憶部と、
    前記テキストからHTMLタグを除去するHTMLタグ除去部と、
    HTMLタグが除去された前記テキストを文字単位に分割する文字分割部と、
    HTMLタグが除去され、文字単位に分割された前記テキスト中の各文字の直前および直後にHTMLタグがあったかどうか、あった場合はどのようなHTMLタグかを表すHTMLタグ情報を、前記HTMLタグ記憶部に記憶された前記テキスト中のHTMLタグとその出現位置に基づいて生成するHTMLタグ情報生成部と、
    少なくともテキスト中の各文字の表記並びにその直前および直後のHTMLタグ情報を素性として、当該テキスト中の各文字が顔文字を構成する文字列の最初の文字を意味する“B”、顔文字を構成する文字列の2番目以降の文字を意味する“I”、顔文字以外の文字を意味する“O”のいずれに当たるかを判定するためのモデルを記憶するモデル記憶部と、
    HTMLタグが除去され、文字単位に分割された前記テキスト中の各文字の表記並びにその直前および直後のHTMLタグ情報を入力とし、前記モデル記憶部に記憶されたモデルを用いて、前記テキスト中の各文字が前記“B”、“I”、“O”のいずれに当たるかを判定するBIO判定部とを備えた
    ことを特徴とする顔文字検出装置。
  2. HTMLタグ情報生成は、
    HTMLタグが除去され、文字単位に分割された前記テキスト中の各文字の直前および直後の位置と、前記HTMLタグ記憶部に記憶された前記テキストにおけるHTMLタグの出現位置とを比較し、一致する場合はそのHTMLタグをHTMLタグ情報として、また、一致しない場合はタグ無しを意味するHTMLタグをHTMLタグ情報として、当該テキスト中の各文字の表記に対応させて出力することで行う
    ことを特徴とする請求項1に記載の顔文字検出装置。
  3. HTMLタグを含むテキスト中の顔文字を検出する方法であって、
    HTMLタグ検出部が、テキスト中のHTMLタグをその出現位置とともに検出し、HTMLタグ記憶部に記憶するステップと、
    HTMLタグ除去部が、前記テキストからHTMLタグを除去するステップと、
    文字分割部が、HTMLタグが除去された前記テキストを文字単位に分割するステップと、
    HTMLタグ情報生成部が、HTMLタグが除去され、文字単位に分割された前記テキスト中の各文字の直前および直後にHTMLタグがあったかどうか、あった場合はどのようなHTMLタグかを表すHTMLタグ情報を、前記HTMLタグ記憶部に記憶された前記テキスト中のHTMLタグとその出現位置に基づいて生成するステップと、
    BIO判定部が、HTMLタグが除去され、文字単位に分割された前記テキスト中の各文字の表記並びにその直前および直後のHTMLタグ情報を入力とし、少なくともテキスト中の各文字の表記並びにその直前および直後のHTMLタグ情報を素性として、当該テキスト中の各文字が顔文字を構成する文字列の最初の文字を意味する“B”、顔文字を構成する文字列の2番目以降の文字を意味する“I”、顔文字以外の文字を意味する“O”のいずれに当たるかを判定するためのモデルを用いて、前記テキスト中の各文字が前記“B”、“I”、“O”のいずれに当たるかを判定するステップとを含む
    ことを特徴とする顔文字検出方法。
  4. HTMLタグ情報生成は、
    HTMLタグが除去され、文字単位に分割された前記テキスト中の各文字の直前および直後の位置と、前記HTMLタグ記憶部に記憶された前記テキストにおけるHTMLタグの出現位置とを比較し、一致する場合はそのHTMLタグをHTMLタグ情報として、また、一致しない場合はタグ無しを意味するHTMLタグをHTMLタグ情報として、当該テキスト中の各文字の表記に対応させて出力することで行う
    ことを特徴とする請求項3に記載の顔文字検出方法。
  5. コンピュータを、請求項1または2に記載の顔文字検出装置の各手段として機能させるためのプログラム。
  6. コンピュータに、請求項3または4に記載の顔文字検出方法の各処理ステップを実行させるためのプログラム。
  7. 請求項5または6に記載のプログラムを記録したことを特徴とするコンピュータ読み取り可能な記録媒体。
JP2008262869A 2008-10-09 2008-10-09 顔文字検出装置、その方法、プログラム及び記録媒体 Expired - Fee Related JP5026384B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008262869A JP5026384B2 (ja) 2008-10-09 2008-10-09 顔文字検出装置、その方法、プログラム及び記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008262869A JP5026384B2 (ja) 2008-10-09 2008-10-09 顔文字検出装置、その方法、プログラム及び記録媒体

Publications (2)

Publication Number Publication Date
JP2010092350A true JP2010092350A (ja) 2010-04-22
JP5026384B2 JP5026384B2 (ja) 2012-09-12

Family

ID=42254983

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008262869A Expired - Fee Related JP5026384B2 (ja) 2008-10-09 2008-10-09 顔文字検出装置、その方法、プログラム及び記録媒体

Country Status (1)

Country Link
JP (1) JP5026384B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110020283A (zh) * 2017-09-27 2019-07-16 北京国双科技有限公司 一种文本显示方法及装置

Also Published As

Publication number Publication date
JP5026384B2 (ja) 2012-09-12

Similar Documents

Publication Publication Date Title
JP6251958B2 (ja) 発話解析装置、音声対話制御装置、方法、及びプログラム
CN107622054B (zh) 文本数据的纠错方法及装置
US11031003B2 (en) Dynamic extraction of contextually-coherent text blocks
JP5071373B2 (ja) 言語処理装置、言語処理方法および言語処理用プログラム
Na Conditional random fields for Korean morpheme segmentation and POS tagging
CN114254643A (zh) 文本纠错方法、装置、电子设备与存储介质
JP5323652B2 (ja) 類似語決定方法およびシステム
CN111310457B (zh) 词语搭配不当识别方法、装置、电子设备和存储介质
JP5026384B2 (ja) 顔文字検出装置、その方法、プログラム及び記録媒体
JP6055267B2 (ja) 文字列分割装置、モデルファイル学習装置および文字列分割システム
Namysl et al. Empirical error modeling improves robustness of noisy neural sequence labeling
JP5013539B2 (ja) 顔文字検出装置、その方法、プログラム及び記録媒体
JP5031713B2 (ja) 顔文字検出装置、その方法、プログラム及び記録媒体
KR101705228B1 (ko) 전자문서생성장치 및 그 동작 방법
JP5026385B2 (ja) 顔文字検出装置、その方法、プログラム及び記録媒体
JP5071986B2 (ja) 顔文字検出装置、その方法、プログラム及び記録媒体
CN112231512A (zh) 歌曲标注检测方法、装置和系统及存储介质
JP2010092351A (ja) 顔文字検出装置、その方法、プログラム及び記録媒体
JP2010102564A (ja) 感情特定装置、その方法、プログラム及び記録媒体
JP4941495B2 (ja) ユーザ辞書作成システム、方法、及び、プログラム
CN115577712A (zh) 一种文本纠错方法及装置
Liu et al. A Bambara tonalization system for word sense disambiguation using differential coding, segmentation and edit operation filtering
Pari et al. SLatAR-A Sign Language Translating Augmented Reality Application
JPH0748217B2 (ja) 文書要約装置
JP4407510B2 (ja) 音声合成装置及び音声合成プログラム

Legal Events

Date Code Title Description
RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20101215

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20110613

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20110614

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20110615

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20110616

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120619

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120620

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150629

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees