JP2010108239A - 顔文字検出装置、その方法、プログラム及び記録媒体 - Google Patents
顔文字検出装置、その方法、プログラム及び記録媒体 Download PDFInfo
- Publication number
- JP2010108239A JP2010108239A JP2008279497A JP2008279497A JP2010108239A JP 2010108239 A JP2010108239 A JP 2010108239A JP 2008279497 A JP2008279497 A JP 2008279497A JP 2008279497 A JP2008279497 A JP 2008279497A JP 2010108239 A JP2010108239 A JP 2010108239A
- Authority
- JP
- Japan
- Prior art keywords
- character
- text
- emoticon
- html tag
- characters
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
Abstract
【解決手段】テキスト分割部3により文字単位に分割されたテキスト中の各文字の表記を少なくとも素性として用いて、BIEO判定部12により、モデル記憶部11に記憶されたモデルを用いて顔文字を構成する最初の文字“B”、顔文字を構成する最初と最後以外の文字“I”、顔文字を構成する文字列の最後の文字を意味する“E”、顔文字以外の文字“O”のいずれに当たるかを機械学習で判定する。
【選択図】図6
Description
田中裕紀、高村大也、奥村学、「文字ベースのコミュニケーションにおける顔文字に関する研究」、言語処理学会第10回年次大会、D4−3、2004 E.F.Tjong Kim Sang,J.Veenstra,"Representing Text Chunks",Proceedings of EACL '99,pp.173−179,1999
図6は本発明の顔文字検出装置の第1の実施の形態を示すもので、図中、従来例と同一構成部分は同一符号をもって表す。即ち、1はHTMLタグ除去部、3は文字分割部、11はモデル記憶部、12はBIEO判定部である。
図9は本発明の顔文字検出装置の第2の実施の形態、ここでは素性として少なくともテキスト中の各文字の表記とともにその文字種を用いた例を示すもので、図中、第1の実施の形態と同一構成部分は同一符号をもって表す。即ち、1はHTMLタグ除去部、3は文字分割部、21は文字種抽出部、22はモデル記憶部、23はBIEO判定部である。
HTMLソーステキストの場合、顔文字は“<br>”などのHTMLタグの直前に出現することが多い。例えば、「今日はとっても楽しかったです。(^^)<br>」というテキストでは、顔文字「(^^)」はHTMLタグ“<br>”の直前に出現している。このような出現傾向は、顔文字の検出に有効であると思われる。
顔文字を構成する文字列の細部に着目すると、“目”に当たる文字を2つ並べた文字列(“目目”)や、“目”に当たる文字を2つ並べ、更にその間に“口”に当たる文字を並べた文字列(“目口目”)(以下、これらを顔部分の文字列と呼ぶ。)を含むケースが多い。また、同一の顔部分の文字列が複数種類の顔文字に含まれる場合も多く、このような顔文字を構成する文字列の特徴は、顔文字の検出に有効であると思われる。
顔文字を構成する文字列、例えば「(^^)」、「(`´)」、「(^o^)」、「(^◇^)」、「\(^◇^)/」、「(> <)」、「(T T)」、「(T△T)」などの文字列に着目すると、「^^」、「TT」などの2つの同一文字、または「(」および「)」、「\」および「/」、「>」および「<」などの一対の対称文字のいずれか一方を少なくとも含み、文字列全体として左右対称であるケースが少なくない。このような顔文字を構成する文字列の特徴、つまり左右対称性は、顔文字の検出に有効であると思われる。
HTMLソーステキストの場合、顔文字は“<br>”などのHTMLタグの直前に出現することが多いという傾向の外、HTMLタグが顔文字の途中に出現することは非常に少ないという出現傾向がある。このような出現傾向もまた、顔文字の検出に有効であると思われる。
Claims (15)
- テキスト中の顔文字を検出する装置であって、
テキストを文字単位に分割する文字分割部と、
少なくともテキスト中の各文字の表記を素性として、当該テキスト中の各文字が顔文字を構成する文字列の最初の文字を意味する“B”、顔文字を構成する文字列の最初と最後以外の文字を意味する“I”、顔文字を構成する文字列の最後の文字を意味する“E”、顔文字以外の文字を意味する“O”のいずれに当たるかを判定するためのモデルを記憶するモデル記憶部と、
文字単位に分割された前記テキスト中の各文字の表記を少なくとも入力とし、前記モデル記憶部に記憶されたモデルを用いて、前記テキスト中の各文字が前記“B”、“I”、“E”、“O”のいずれに当たるかを判定するBIEO判定部とを備えた
ことを特徴とする顔文字検出装置。 - 前記に加え、
文字単位に分割された前記テキスト中の各文字の文字種を抽出し、これを当該テキスト中の各文字の表記に対応させて出力する文字種抽出部を備え、
モデル記憶部は、少なくともテキスト中の各文字の表記およびその文字種を素性として、当該テキスト中の各文字が顔文字を構成する文字列の最初の文字を意味する“B”、顔文字を構成する文字列の最初と最後以外の文字を意味する“I”、顔文字を構成する文字列の最後の文字を意味する“E”、顔文字以外の文字を意味する“O”のいずれに当たるかを判定するためのモデルを記憶し、
BIEO判定部は、文字単位に分割された前記テキスト中の各文字の表記およびその文字種を入力とし、前記モデル記憶部に記憶されたモデルを用いて、前記テキスト中の各文字が前記“B”、“I”、“E”、“O”のいずれに当たるかを判定する
ことを特徴とする請求項1に記載の顔文字検出装置。 - 前記に加え、
テキスト中のHTMLタグをその出現位置とともに検出するHTMLタグ検出部と、
検出されたHTMLタグを前記テキストにおけるその出現位置とともに記憶するHTMLタグ記憶部と、
前記テキストからHTMLタグを除去するHTMLタグ除去部と、
HTMLタグが除去され、文字単位に分割された前記テキスト中の各文字の直前および直後にHTMLタグがあったかどうか、あった場合はどのようなHTMLタグかを表すHTMLタグ情報を、前記HTMLタグ記憶部に記憶された前記テキスト中のHTMLタグとその出現位置に基づいて生成するHTMLタグ情報生成部とを備え、
文字分割部は、HTMLタグが除去された前記テキストを文字単位に分割し、
モデル記憶部は、少なくともテキスト中の各文字の表記並びにその直前および直後のHTMLタグ情報を素性として、当該テキスト中の各文字が顔文字を構成する文字列の最初の文字を意味する“B”、顔文字を構成する文字列の最初と最後以外の文字を意味する“I”、顔文字を構成する文字列の最後の文字を意味する“E”、顔文字以外の文字を意味する“O”のいずれに当たるかを判定するためのモデルを記憶し、
BIEO判定部は、HTMLタグが除去され、文字単位に分割された前記テキスト中の各文字の表記並びにその直前および直後のHTMLタグ情報を入力とし、前記モデル記憶部に記憶されたモデルを用いて、前記テキスト中の各文字が前記“B”、“I”、“E”、“O”のいずれに当たるかを判定する
ことを特徴とする請求項1に記載の顔文字検出装置。 - 前記に加え、
顔文字を構成する文字列中の顔部分の文字列を登録してなる顔部分辞書を記憶する顔部分辞書記憶部と、
テキストから前記顔部分辞書記憶部に記憶された顔部分辞書に登録されている顔部分の文字列に対応する範囲を抽出する顔部分抽出部と、
文字単位に分割された前記テキスト中の各文字が顔部分であるか否かを示す顔部分情報を、抽出された前記テキストにおける顔部分の範囲に基づいて生成する顔部分情報生成部とを備え、
モデル記憶部は、少なくともテキスト中の各文字の表記およびその顔部分情報を素性として、当該テキスト中の各文字が顔文字を構成する文字列の最初の文字を意味する“B”、顔文字を構成する文字列の最初と最後以外の文字を意味する“I”、顔文字を構成する文字列の最後の文字を意味する“E”、顔文字以外の文字を意味する“O”のいずれに当たるかを判定するためのモデルを記憶し、
BIEO判定部は、文字単位に分割された前記テキスト中の各文字の表記およびその顔部分情報を入力とし、前記モデル記憶部に記憶されたモデルを用いて、前記テキスト中の各文字が前記“B”、“I”、“E”、“O”のいずれに当たるかを判定する
ことを特徴とする請求項1に記載の顔文字検出装置。 - 前記に加え、
テキストから、2つの同一文字または一対の対称文字の少なくとも一方を含み、全体として左右対称性を有する左右対称文字列に対応する範囲を抽出する左右対称文字列抽出部と、
文字単位に分割された前記テキスト中の各文字が左右対称文字列に含まれるか否かを示す左右対称情報を、抽出された前記テキストにおける左右対称文字列の範囲に基づいて生成する左右対称情報生成部とを備え、
モデル記憶部は、少なくともテキスト中の各文字の表記およびその左右対称情報を素性として、当該テキスト中の各文字が顔文字を構成する文字列の最初の文字を意味する“B”、顔文字を構成する文字列の最初と最後以外の文字を意味する“I”、顔文字を構成する文字列の最後の文字を意味する“E”、顔文字以外の文字を意味する“O”のいずれに当たるかを判定するためのモデルを記憶し、
BIEO判定部は、文字単位に分割された前記テキスト中の各文字の表記およびその左右対称情報を入力とし、前記モデル記憶部に記憶されたモデルを用いて、前記テキスト中の各文字が前記“B”、“I”、“E”、“O”のいずれに当たるかを判定する
ことを特徴とする請求項1に記載の顔文字検出装置。 - 前記に加え、
テキスト中のHTMLタグをその出現位置とともに検出するHTMLタグ検出部と、
検出されたHTMLタグを前記テキストにおけるその出現位置とともに記憶するHTMLタグ記憶部と、
前記テキストからHTMLタグを除去するHTMLタグ除去部と、
HTMLタグが除去され、文字単位に分割された前記テキストを、前記HTMLタグ記憶部に記憶された前記テキスト中のHTMLタグの出現位置で複数の系列に分割するテキスト分割部とを備え、
文字分割部は、HTMLタグが除去された前記テキストを文字単位に分割し、
BIEO判定部は、HTMLタグが除去され、文字単位に分割され、更に複数の系列に分割された前記テキスト中の各文字の表記を少なくとも入力とし、前記モデル記憶部に記憶されたモデルを用いて、前記テキスト中の各文字が前記“B”、“I”、“E”、“O”のいずれに当たるかを判定する
ことを特徴とする請求項1に記載の顔文字検出装置。 - テキスト中の顔文字を検出する方法であって、
文字分割部が、テキストを文字単位に分割するステップと、
BIEO判定部が、文字単位に分割された前記テキスト中の各文字の表記を少なくとも入力とし、少なくともテキスト中の各文字の表記を素性として、当該テキスト中の各文字が顔文字を構成する文字列の最初の文字を意味する“B”、顔文字を構成する文字列の最初と最後以外の文字を意味する“I”、顔文字を構成する文字列の最後の文字を意味する“E”、顔文字以外の文字を意味する“O”のいずれに当たるかを判定するためのモデルを用いて、前記テキスト中の各文字が前記“B”、“I”、“E”、“O”のいずれに当たるかを判定するステップとを含む
ことを特徴とする顔文字検出方法。 - 前記に加え、
文字種抽出部が、文字単位に分割された前記テキスト中の各文字の文字種を抽出し、これを当該テキスト中の各文字の表記に対応させて出力するステップを含み、
BIEO判定処理ステップは、文字単位に分割された前記テキスト中の各文字の表記およびその文字種を入力とし、少なくともテキスト中の各文字の表記およびその文字種を素性として、当該テキスト中の各文字が顔文字を構成する文字列の最初の文字を意味する“B”、顔文字を構成する文字列の最初と最後以外の文字を意味する“I”、顔文字を構成する文字列の最後の文字を意味する“E”、顔文字以外の文字を意味する“O”のいずれに当たるかを判定するためのモデルを用いて、前記テキスト中の各文字が前記“B”、“I”、“E”、“O”のいずれに当たるかを判定する
ことを特徴とする請求項7に記載の顔文字検出方法。 - 前記に加え、
HTMLタグ検出部が、テキスト中のHTMLタグをその出現位置とともに検出し、HTMLタグ記憶部に記憶するステップと、
HTMLタグ除去部が、前記テキストからHTMLタグを除去するステップと、
HTMLタグ情報生成部が、HTMLタグが除去され、文字単位に分割された前記テキスト中の各文字の直前および直後にHTMLタグがあったかどうか、あった場合はどのようなHTMLタグかを表すHTMLタグ情報を、前記HTMLタグ記憶部に記憶された前記テキスト中のHTMLタグとその出現位置に基づいて生成するステップを含み、
文字分割ステップは、HTMLタグが除去された前記テキストを文字単位に分割し、
BIEO判定処理ステップは、HTMLタグが除去され、文字単位に分割された前記テキスト中の各文字の表記並びにその直前および直後のHTMLタグ情報を入力とし、少なくともテキスト中の各文字の表記並びにその直前および直後のHTMLタグ情報を素性として、当該テキスト中の各文字が顔文字を構成する文字列の最初の文字を意味する“B”、顔文字を構成する文字列の最初と最後以外の文字を意味する“I”、顔文字を構成する文字列の最後の文字を意味する“E”、顔文字以外の文字を意味する“O”のいずれに当たるかを判定するためのモデルを用いて、前記テキスト中の各文字が前記“B”、“I”、“E”、“O”のいずれに当たるかを判定する
ことを特徴とする請求項7に記載の顔文字検出方法。 - 前記に加え、
顔部分抽出部が、テキストから顔部分辞書に登録されている顔文字を構成する文字列中の顔部分の文字列に対応する範囲を抽出するステップと、
顔部分情報生成部が、文字単位に分割された前記テキスト中の各文字が顔部分であるか否かを示す顔部分情報を、抽出された前記テキストにおける顔部分の範囲に基づいて生成するステップとを含み、
BIEO判定処理ステップは、文字単位に分割された前記テキスト中の各文字の表記およびその顔部分情報を入力とし、少なくともテキスト中の各文字の表記およびその顔部分情報を素性として、当該テキスト中の各文字が顔文字を構成する文字列の最初の文字を意味する“B”、顔文字を構成する文字列の最初と最後以外の文字を意味する“I”、顔文字を構成する文字列の最後の文字を意味する“E”、顔文字以外の文字を意味する“O”のいずれに当たるかを判定するためのモデルを用いて、前記テキスト中の各文字が前記“B”、“I”、“E”、“O”のいずれに当たるかを判定する
ことを特徴とする請求項7に記載の顔文字検出方法。 - 前記に加え、
左右対称文字列抽出部が、テキストから、2つの同一文字または一対の対称文字の少なくとも一方を含み、全体として左右対称性を有する左右対称文字列に対応する範囲を抽出するステップと、
左右対称情報生成部が、文字単位に分割された前記テキスト中の各文字が左右対称文字列に含まれるか否かを示す左右対称情報を、抽出された前記テキストにおける左右対称文字列の範囲に基づいて生成するステップとを含み、
BIEO判定処理ステップは、文字単位に分割された前記テキスト中の各文字の表記およびその左右対称情報を入力とし、少なくともテキスト中の各文字の表記およびその左右対称情報を素性として、当該テキスト中の各文字が顔文字を構成する文字列の最初の文字を意味する“B”、顔文字を構成する文字列の最初と最後以外の文字を意味する“I”、顔文字を構成する文字列の最後の文字を意味する“E”、顔文字以外の文字を意味する“O”のいずれに当たるかを判定するためのモデルを用いて、前記テキスト中の各文字が前記“B”、“I”、“E”、“O”のいずれに当たるかを判定する
ことを特徴とする請求項7に記載の顔文字検出方法。 - 前記に加え、
HTMLタグ検出部が、テキスト中のHTMLタグをその出現位置とともに検出し、HTMLタグ記憶部に記憶するステップと、
HTMLタグ除去部が、前記テキストからHTMLタグを除去するステップと、
テキスト分割部が、HTMLタグが除去され、文字単位に分割された前記テキストを、前記HTMLタグ記憶部に記憶された前記テキスト中のHTMLタグの出現位置で複数の系列に分割するステップとを含み、
文字分割ステップは、HTMLタグが除去された前記テキストを文字単位に分割し、
BIEO判定処理ステップは、HTMLタグが除去され、文字単位に分割され、更に複数の系列に分割された前記テキスト中の各文字の表記を少なくとも入力とし、少なくともテキスト中の各文字の表記を素性として、当該テキスト中の各文字が顔文字を構成する文字列の最初の文字を意味する“B”、顔文字を構成する文字列の最初と最後以外の文字を意味する“I”、顔文字を構成する文字列の最後の文字を意味する“E”、顔文字以外の文字を意味する“O”のいずれに当たるかを判定するためのモデルを用いて、前記テキスト中の各文字が前記“B”、“I”、“E”、“O”のいずれに当たるかを判定する
ことを特徴とする請求項7に記載の顔文字検出方法。 - コンピュータを、請求項1乃至6のいずれかに記載の顔文字検出装置の各手段として機能させるためのプログラム。
- コンピュータに、請求項7乃至12のいずれかに記載の顔文字検出方法の各処理ステップを実行させるためのプログラム。
- 請求項13または14に記載のプログラムを記録したことを特徴とするコンピュータ読み取り可能な記録媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008279497A JP5031713B2 (ja) | 2008-10-30 | 2008-10-30 | 顔文字検出装置、その方法、プログラム及び記録媒体 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008279497A JP5031713B2 (ja) | 2008-10-30 | 2008-10-30 | 顔文字検出装置、その方法、プログラム及び記録媒体 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2010108239A true JP2010108239A (ja) | 2010-05-13 |
JP5031713B2 JP5031713B2 (ja) | 2012-09-26 |
Family
ID=42297632
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008279497A Expired - Fee Related JP5031713B2 (ja) | 2008-10-30 | 2008-10-30 | 顔文字検出装置、その方法、プログラム及び記録媒体 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5031713B2 (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS6093542A (ja) * | 1983-10-27 | 1985-05-25 | Tokyo Electric Co Ltd | キ−ボ−ド装置 |
JP2015169951A (ja) * | 2014-03-04 | 2015-09-28 | 株式会社デンソーアイティーラボラトリ | 情報処理装置、情報処理方法、およびプログラム |
-
2008
- 2008-10-30 JP JP2008279497A patent/JP5031713B2/ja not_active Expired - Fee Related
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS6093542A (ja) * | 1983-10-27 | 1985-05-25 | Tokyo Electric Co Ltd | キ−ボ−ド装置 |
JP2015169951A (ja) * | 2014-03-04 | 2015-09-28 | 株式会社デンソーアイティーラボラトリ | 情報処理装置、情報処理方法、およびプログラム |
Also Published As
Publication number | Publication date |
---|---|
JP5031713B2 (ja) | 2012-09-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102540774B1 (ko) | 서브워드 임베딩 및 스킵서트 기반 문장 임베딩 방법 및 장치 | |
CN106534548B (zh) | 语音纠错方法和装置 | |
JP5071373B2 (ja) | 言語処理装置、言語処理方法および言語処理用プログラム | |
JP2014145842A (ja) | 発話解析装置、音声対話制御装置、方法、及びプログラム | |
Drovo et al. | Named entity recognition in Bengali text using merged hidden Markov model and rule base approach | |
CN109145311B (zh) | 处理方法、处理装置以及处理程序 | |
JP2009223463A (ja) | 同義性判定装置、その方法、プログラム及び記録媒体 | |
CN104994000A (zh) | 一种图像动态呈现的方法和装置 | |
JP5323652B2 (ja) | 類似語決定方法およびシステム | |
CN105373527B (zh) | 一种省略恢复方法及问答系统 | |
JP5031713B2 (ja) | 顔文字検出装置、その方法、プログラム及び記録媒体 | |
US20180075839A1 (en) | Correction system, method of correction, and computer program product | |
KR101929509B1 (ko) | 형태소 합성 장치 및 방법 | |
JP5013539B2 (ja) | 顔文字検出装置、その方法、プログラム及び記録媒体 | |
WO2015099418A1 (ko) | 채팅 데이터 학습 및 서비스 방법 및 그에 따른 시스템 | |
JP5853595B2 (ja) | 形態素解析装置、方法、プログラム、音声合成装置、方法、プログラム | |
JP5026385B2 (ja) | 顔文字検出装置、その方法、プログラム及び記録媒体 | |
JP5071986B2 (ja) | 顔文字検出装置、その方法、プログラム及び記録媒体 | |
KR102109858B1 (ko) | 자모 및 음절 임베딩 결합을 이용하는 한국어 형태소 분석을 위한 장치 및 방법 | |
JP5026384B2 (ja) | 顔文字検出装置、その方法、プログラム及び記録媒体 | |
Monga et al. | Speech to Indian Sign Language Translator | |
JP6055267B2 (ja) | 文字列分割装置、モデルファイル学習装置および文字列分割システム | |
JP2010092351A (ja) | 顔文字検出装置、その方法、プログラム及び記録媒体 | |
JP5718406B2 (ja) | 発話文生成装置、対話装置、発話文生成方法、対話方法、発話文生成プログラム、及び対話プログラム | |
JP2017010207A (ja) | 話題継続願望判定装置、方法、及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20101215 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20110613 |
|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20110614 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20110615 |
|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20110616 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20120626 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20120627 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20150706 Year of fee payment: 3 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
LAPS | Cancellation because of no payment of annual fees |