JP5013539B2 - 顔文字検出装置、その方法、プログラム及び記録媒体 - Google Patents
顔文字検出装置、その方法、プログラム及び記録媒体 Download PDFInfo
- Publication number
- JP5013539B2 JP5013539B2 JP2008270559A JP2008270559A JP5013539B2 JP 5013539 B2 JP5013539 B2 JP 5013539B2 JP 2008270559 A JP2008270559 A JP 2008270559A JP 2008270559 A JP2008270559 A JP 2008270559A JP 5013539 B2 JP5013539 B2 JP 5013539B2
- Authority
- JP
- Japan
- Prior art keywords
- character
- text
- html tag
- emoticon
- divided
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
Description
田中裕紀、高村大也、奥村学、「文字ベースのコミュニケーションにおける顔文字に関する研究」、言語処理学会第10回年次大会、D4−3、2004
図6は本発明の顔文字検出装置の第1の実施の形態を示すもので、図中、従来例と同一構成部分は同一符号をもって表す。即ち、1はHTMLタグ除去部、3は文字分割部、11はHTMLタグ検出部、12はHTMLタグ記憶部、13はテキスト分割部、14はモデル記憶部、15はBIO判定部である。
図12は本発明の顔文字検出装置の第2の実施の形態、ここでは素性として少なくともテキスト中の各文字の表記とともにその文字種を用いた例を示すもので、図中、第1の実施の形態と同一構成部分は同一符号をもって表す。即ち、1はHTMLタグ除去部、3は文字分割部、11はHTMLタグ検出部、12はHTMLタグ記憶部、21は文字種抽出部、22はテキスト分割部、23はモデル記憶部、24はBIO判定部である。
HTMLソーステキストの場合、HTMLタグが顔文字の途中に出現することは非常に少ないという傾向の外、顔文字は“<br>”などのHTMLタグの直前に出現することが多いという出現傾向がある。このような出現傾向もまた、顔文字の検出に有効であると思われる。
顔文字を構成する文字列の細部に着目すると、“目”に当たる文字を2つ並べた文字列(“目目”)や、“目”に当たる文字を2つ並べ、更にその間に“口”に当たる文字を並べた文字列(“目口目”)(以下、これらを顔部分の文字列と呼ぶ。)を含むケースが多い。また、同一の顔部分の文字列が複数種類の顔文字に含まれる場合も多く、このような顔文字を構成する文字列の特徴は、顔文字の検出に有効であると思われる。
顔文字を構成する文字列、例えば「(^^)」、「(`´)」、「(^o^)」、「(^◇^)」、「\(^◇^)/」、「(> <)」、「(T T)」、「(T△T)」などの文字列に着目すると、「^^」、「TT」などの2つの同一文字、または「(」および「)」、「\」および「/」、「>」および「<」などの一対の対称文字のいずれか一方を少なくとも含み、文字列全体として左右対称であるケースが少なくない。このような顔文字を構成する文字列の特徴、つまり左右対称性は、顔文字の検出に有効であると思われる。
Claims (13)
- HTMLタグを含むテキスト中の顔文字を検出する装置であって、
テキスト中のHTMLタグをその出現位置とともに検出するHTMLタグ検出部と、
検出されたHTMLタグを前記テキストにおけるその出現位置とともに記憶するHTMLタグ記憶部と、
前記テキストからHTMLタグを除去するHTMLタグ除去部と、
HTMLタグが除去された前記テキストを文字単位に分割する文字分割部と、
HTMLタグが除去され、文字単位に分割された前記テキストを、前記HTMLタグ記憶部に記憶された前記テキスト中のHTMLタグの出現位置で複数の系列に分割するテキスト分割部と、
少なくともテキスト中の各文字の表記を素性として、当該テキスト中の各文字が顔文字を構成する文字列の最初の文字を意味する“B”、顔文字を構成する文字列の2番目以降の文字を意味する“I”、顔文字以外の文字を意味する“O”のいずれに当たるかを判定するためのモデルを記憶するモデル記憶部と、
HTMLタグが除去され、文字単位に分割され、更に複数の系列に分割された前記テキスト中の各文字の表記を少なくとも入力とし、前記モデル記憶部に記憶されたモデルを用いて、前記テキスト中の各文字が前記“B”、“I”、“O”のいずれに当たるかを判定するBIO判定部とを備えた
ことを特徴とする顔文字検出装置。 - 前記に加え、
HTMLタグが除去され、文字単位に分割された前記テキスト中の各文字の文字種を抽出し、これを当該テキスト中の各文字の表記に対応させて出力する文字種抽出部を備え、
テキスト分割部は、HTMLタグが除去され、文字単位に分割され、更に各文字毎にその文字種が付与された前記テキストを、前記HTMLタグ記憶部に記憶された前記テキスト中のHTMLタグの出現位置で複数の系列に分割し、
モデル記憶部は、少なくともテキスト中の各文字の表記およびその文字種を素性として、当該テキスト中の各文字が顔文字を構成する文字列の最初の文字を意味する“B”、顔文字を構成する文字列の2番目以降の文字を意味する“I”、顔文字以外の文字を意味する“O”のいずれに当たるかを判定するためのモデルを記憶し、
BIO判定部は、HTMLタグが除去され、文字単位に分割され、更に複数の系列に分割された前記テキスト中の各文字の表記およびその文字種を入力とし、前記モデル記憶部に記憶されたモデルを用いて、前記テキスト中の各文字が前記“B”、“I”、“O”のいずれに当たるかを判定する
ことを特徴とする請求項1に記載の顔文字検出装置。 - 前記に加え、
HTMLタグが除去され、文字単位に分割された前記テキスト中の各文字の直前および直後にHTMLタグがあったかどうか、あった場合はどのようなHTMLタグかを表すHTMLタグ情報を、前記HTMLタグ記憶部に記憶された前記テキスト中のHTMLタグとその出現位置に基づいて生成するHTMLタグ情報生成部を備え、
テキスト分割部は、HTMLタグが除去され、文字単位に分割され、更に各文字毎にその直前および直後のHTMLタグ情報が付与された前記テキストを、前記HTMLタグ記憶部に記憶された前記テキスト中のHTMLタグの出現位置で複数の系列に分割し、
モデル記憶部は、少なくともテキスト中の各文字の表記並びにその直前および直後のHTMLタグ情報を素性として、当該テキスト中の各文字が顔文字を構成する文字列の最初の文字を意味する“B”、顔文字を構成する文字列の2番目以降の文字を意味する“I”、顔文字以外の文字を意味する“O”のいずれに当たるかを判定するためのモデルを記憶し、
BIO判定部は、HTMLタグが除去され、文字単位に分割され、更に複数の系列に分割された前記テキスト中の各文字の表記並びにその直前および直後のHTMLタグ情報を入力とし、前記モデル記憶部に記憶されたモデルを用いて、前記テキスト中の各文字が前記“B”、“I”、“O”のいずれに当たるかを判定する
ことを特徴とする請求項1に記載の顔文字検出装置。 - 前記に加え、
顔文字を構成する文字列中の顔部分の文字列を登録してなる顔部分辞書を記憶する顔部分辞書記憶部と、
HTMLタグが除去された前記テキストから前記顔部分辞書記憶部に記憶された顔部分辞書に登録されている顔部分の文字列に対応する範囲を抽出する顔部分抽出部と、
HTMLタグが除去され、文字単位に分割された前記テキスト中の各文字が顔部分であるか否かを示す顔部分情報を、抽出された前記テキストにおける顔部分の範囲に基づいて生成する顔部分情報生成部とを備え、
テキスト分割部は、HTMLタグが除去され、文字単位に分割され、更に各文字毎にその顔部分情報が付与された前記テキストを、前記HTMLタグ記憶部に記憶された前記テキスト中のHTMLタグの出現位置で複数の系列に分割し、
モデル記憶部は、少なくともテキスト中の各文字の表記およびその顔部分情報を素性として、当該テキスト中の各文字が顔文字を構成する文字列の最初の文字を意味する“B”、顔文字を構成する文字列の2番目以降の文字を意味する“I”、顔文字以外の文字を意味する“O”のいずれに当たるかを判定するためのモデルを記憶し、
BIO判定部は、HTMLタグが除去され、文字単位に分割され、更に複数の系列に分割された前記テキスト中の各文字の表記およびその顔部分情報を入力とし、前記モデル記憶部に記憶されたモデルを用いて、前記テキスト中の各文字が前記“B”、“I”、“O”のいずれに当たるかを判定する
ことを特徴とする請求項1に記載の顔文字検出装置。 - 前記に加え、
HTMLタグが除去された前記テキストから、2つの同一文字または一対の対称文字の少なくとも一方を含み、全体として左右対称性を有する左右対称文字列に対応する範囲を抽出する左右対称文字列抽出部と、
HTMLタグが除去され、文字単位に分割された前記テキスト中の各文字が左右対称文字列に含まれるか否かを示す左右対称情報を、抽出された前記テキストにおける左右対称文字列の範囲に基づいて生成する左右対称情報生成部とを備え、
テキスト分割部は、HTMLタグが除去され、文字単位に分割され、更に各文字毎にその左右対称情報が付与された前記テキストを、前記HTMLタグ記憶部に記憶された前記テキスト中のHTMLタグの出現位置で複数の系列に分割し、
モデル記憶部は、少なくともテキスト中の各文字の表記およびその左右対称情報を素性として、当該テキスト中の各文字が顔文字を構成する文字列の最初の文字を意味する“B”、顔文字を構成する文字列の2番目以降の文字を意味する“I”、顔文字以外の文字を意味する“O”のいずれに当たるかを判定するためのモデルを記憶し、
BIO判定部は、HTMLタグが除去され、文字単位に分割され、更に複数の系列に分割された前記テキスト中の各文字の表記およびその左右対称情報を入力とし、前記モデル記憶部に記憶されたモデルを用いて、前記テキスト中の各文字が前記“B”、“I”、“O”のいずれに当たるかを判定する
ことを特徴とする請求項1に記載の顔文字検出装置。 - HTMLタグを含むテキスト中の顔文字を検出する方法であって、
HTMLタグ検出部が、テキスト中のHTMLタグをその出現位置とともに検出し、HTMLタグ記憶部に記憶するステップと、
HTMLタグ除去部が、前記テキストからHTMLタグを除去するステップと、
文字分割部が、HTMLタグが除去された前記テキストを文字単位に分割するステップと、
テキスト分割部が、HTMLタグが除去され、文字単位に分割された前記テキストを、前記HTMLタグ記憶部に記憶された前記テキスト中のHTMLタグの出現位置で複数の系列に分割するステップと、
BIO判定部が、HTMLタグが除去され、文字単位に分割され、更に複数の系列に分割された前記テキスト中の各文字の表記を少なくとも入力とし、少なくともテキスト中の各文字の表記を素性として、当該テキスト中の各文字が顔文字を構成する文字列の最初の文字を意味する“B”、顔文字を構成する文字列の2番目以降の文字を意味する“I”、顔文字以外の文字を意味する“O”のいずれに当たるかを判定するためのモデルを用いて、前記テキスト中の各文字が前記“B”、“I”、“O”のいずれに当たるかを判定するステップとを含む
ことを特徴とする顔文字検出方法。 - 前記に加え、
文字種抽出部が、HTMLタグが除去され、文字単位に分割された前記テキスト中の各文字の文字種を抽出し、これを当該テキスト中の各文字の表記に対応させて出力するステップを含み、
テキスト分割処理ステップは、HTMLタグが除去され、文字単位に分割され、更に各文字毎にその文字種が付与された前記テキストを、前記HTMLタグ記憶部に記憶された前記テキスト中のHTMLタグの出現位置で複数の系列に分割し、
BIO判定処理ステップは、HTMLタグが除去され、文字単位に分割され、更に複数の系列に分割された前記テキスト中の各文字の表記およびその文字種を入力とし、少なくともテキスト中の各文字の表記およびその文字種を素性として、当該テキスト中の各文字が顔文字を構成する文字列の最初の文字を意味する“B”、顔文字を構成する文字列の2番目以降の文字を意味する“I”、顔文字以外の文字を意味する“O”のいずれに当たるかを判定するためのモデルを用いて、前記テキスト中の各文字が前記“B”、“I”、“O”のいずれに当たるかを判定する
ことを特徴とする請求項6に記載の顔文字検出方法。 - 前記に加え、
HTMLタグ情報生成部が、HTMLタグが除去され、文字単位に分割された前記テキスト中の各文字の直前および直後にHTMLタグがあったかどうか、あった場合はどのようなHTMLタグかを表すHTMLタグ情報を、前記HTMLタグ記憶部に記憶された前記テキスト中のHTMLタグとその出現位置に基づいて生成するステップを含み、
テキスト分割処理ステップは、HTMLタグが除去され、文字単位に分割され、更に各文字毎にその直前および直後のHTMLタグ情報が付与された前記テキストを、前記HTMLタグ記憶部に記憶された前記テキスト中のHTMLタグの出現位置で複数の系列に分割し、
BIO判定処理ステップは、HTMLタグが除去され、文字単位に分割され、更に複数の系列に分割された前記テキスト中の各文字の表記並びにその直前および直後のHTMLタグ情報を入力とし、少なくともテキスト中の各文字の表記並びにその直前および直後のHTMLタグ情報を素性として、当該テキスト中の各文字が顔文字を構成する文字列の最初の文字を意味する“B”、顔文字を構成する文字列の2番目以降の文字を意味する“I”、顔文字以外の文字を意味する“O”のいずれに当たるかを判定するためのモデルを用いて、前記テキスト中の各文字が前記“B”、“I”、“O”のいずれに当たるかを判定する
ことを特徴とする請求項6に記載の顔文字検出方法。 - 前記に加え、
顔部分抽出部が、HTMLタグが除去された前記テキストから顔部分辞書に登録されている顔文字を構成する文字列中の顔部分の文字列に対応する範囲を抽出するステップと、
顔部分情報生成部が、HTMLタグが除去され、文字単位に分割された前記テキスト中の各文字が顔部分であるか否かを示す顔部分情報を、抽出された前記テキストにおける顔部分の範囲に基づいて生成するステップとを含み、
テキスト分割処理ステップは、HTMLタグが除去され、文字単位に分割され、更に各文字毎にその顔部分情報が付与された前記テキストを、前記HTMLタグ記憶部に記憶された前記テキスト中のHTMLタグの出現位置で複数の系列に分割し、
BIO判定処理ステップは、HTMLタグが除去され、文字単位に分割され、更に複数の系列に分割された前記テキスト中の各文字の表記およびその顔部分情報を入力とし、少なくともテキスト中の各文字の表記およびその顔部分情報を素性として、当該テキスト中の各文字が顔文字を構成する文字列の最初の文字を意味する“B”、顔文字を構成する文字列の2番目以降の文字を意味する“I”、顔文字以外の文字を意味する“O”のいずれに当たるかを判定するためのモデルを用いて、前記テキスト中の各文字が前記“B”、“I”、“O”のいずれに当たるかを判定する
ことを特徴とする請求項6に記載の顔文字検出方法。 - 前記に加え、
左右対称文字列抽出部が、HTMLタグが除去された前記テキストから、2つの同一文字または一対の対称文字の少なくとも一方を含み、全体として左右対称性を有する左右対称文字列に対応する範囲を抽出するステップと、
左右対称情報生成部が、HTMLタグが除去され、文字単位に分割された前記テキスト中の各文字が左右対称文字列に含まれるか否かを示す左右対称情報を、抽出された前記テキストにおける左右対称文字列の範囲に基づいて生成するステップとを含み、
テキスト分割処理ステップは、HTMLタグが除去され、文字単位に分割され、更に各文字毎にその左右対称情報が付与された前記テキストを、前記HTMLタグ記憶部に記憶された前記テキスト中のHTMLタグの出現位置で複数の系列に分割し、
BIO判定処理ステップは、HTMLタグが除去され、文字単位に分割され、更に複数の系列に分割された前記テキスト中の各文字の表記およびその左右対称情報を入力とし、少なくともテキスト中の各文字の表記およびその左右対称情報を素性として、当該テキスト中の各文字が顔文字を構成する文字列の最初の文字を意味する“B”、顔文字を構成する文字列の2番目以降の文字を意味する“I”、顔文字以外の文字を意味する“O”のいずれに当たるかを判定するためのモデルを用いて、前記テキスト中の各文字が前記“B”、“I”、“O”のいずれに当たるかを判定する
ことを特徴とする請求項6に記載の顔文字検出方法。 - コンピュータを、請求項1乃至5のいずれかに記載の顔文字検出装置の各手段として機能させるためのプログラム。
- コンピュータに、請求項6乃至10のいずれかに記載の顔文字検出方法の各処理ステップを実行させるためのプログラム。
- 請求項11または12に記載のプログラムを記録したことを特徴とするコンピュータ読み取り可能な記録媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008270559A JP5013539B2 (ja) | 2008-10-21 | 2008-10-21 | 顔文字検出装置、その方法、プログラム及び記録媒体 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008270559A JP5013539B2 (ja) | 2008-10-21 | 2008-10-21 | 顔文字検出装置、その方法、プログラム及び記録媒体 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2010102371A JP2010102371A (ja) | 2010-05-06 |
JP5013539B2 true JP5013539B2 (ja) | 2012-08-29 |
Family
ID=42292996
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008270559A Expired - Fee Related JP5013539B2 (ja) | 2008-10-21 | 2008-10-21 | 顔文字検出装置、その方法、プログラム及び記録媒体 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5013539B2 (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110413982B (zh) * | 2018-04-27 | 2022-09-27 | 北京海马轻帆娱乐科技有限公司 | 一种文本处理方法及装置 |
CN111476037B (zh) * | 2020-04-14 | 2023-03-31 | 腾讯科技(深圳)有限公司 | 文本处理方法、装置、计算机设备和存储介质 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004133918A (ja) * | 2002-09-18 | 2004-04-30 | Matsushita Electric Ind Co Ltd | 文字情報処理装置、通信端末装置、情報提供サーバ及び文字情報処理装置用プログラム |
JP4523312B2 (ja) * | 2004-03-30 | 2010-08-11 | 富士通株式会社 | テキスト音声出力のための装置、方法、及びプログラム |
JP2005301437A (ja) * | 2004-04-07 | 2005-10-27 | Hitachi Ins Software Ltd | 適応型ウエブページデータ抽出装置および抽出プログラム |
JP2007279964A (ja) * | 2006-04-05 | 2007-10-25 | Recruit Co Ltd | 情報検索装置 |
-
2008
- 2008-10-21 JP JP2008270559A patent/JP5013539B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2010102371A (ja) | 2010-05-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102540774B1 (ko) | 서브워드 임베딩 및 스킵서트 기반 문장 임베딩 방법 및 장치 | |
CN106534548B (zh) | 语音纠错方法和装置 | |
CN101133411B (zh) | 非罗马字符的容错罗马化输入方法 | |
JP2014145842A (ja) | 発話解析装置、音声対話制御装置、方法、及びプログラム | |
Drovo et al. | Named entity recognition in Bengali text using merged hidden Markov model and rule base approach | |
CN109145311B (zh) | 处理方法、处理装置以及处理程序 | |
Na | Conditional random fields for Korean morpheme segmentation and POS tagging | |
CN110738997B (zh) | 一种信息修正方法、装置、电子设备及存储介质 | |
JPWO2007097208A1 (ja) | 言語処理装置、言語処理方法および言語処理用プログラム | |
CN104994000A (zh) | 一种图像动态呈现的方法和装置 | |
JP5323652B2 (ja) | 類似語決定方法およびシステム | |
US10276150B2 (en) | Correction system, method of correction, and computer program product | |
CN105373527B (zh) | 一种省略恢复方法及问答系统 | |
JP5013539B2 (ja) | 顔文字検出装置、その方法、プログラム及び記録媒体 | |
WO2015099418A1 (ko) | 채팅 데이터 학습 및 서비스 방법 및 그에 따른 시스템 | |
CN113934834A (zh) | 一种问句匹配的方法、装置、设备和存储介质 | |
JP5031713B2 (ja) | 顔文字検出装置、その方法、プログラム及び記録媒体 | |
KR102109858B1 (ko) | 자모 및 음절 임베딩 결합을 이용하는 한국어 형태소 분석을 위한 장치 및 방법 | |
JP5071986B2 (ja) | 顔文字検出装置、その方法、プログラム及び記録媒体 | |
JP5026385B2 (ja) | 顔文字検出装置、その方法、プログラム及び記録媒体 | |
JP5026384B2 (ja) | 顔文字検出装置、その方法、プログラム及び記録媒体 | |
Monga et al. | Speech to Indian Sign Language Translator | |
JP6055267B2 (ja) | 文字列分割装置、モデルファイル学習装置および文字列分割システム | |
Chaudhari et al. | Indian Sign Language Generation–A Multi-modal Approach | |
KR100487716B1 (ko) | 단어레벨의 통계적 방법을 이용한 번역문 생성 방법 및 그장치 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20101215 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20110613 |
|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20110614 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20110615 |
|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20110616 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20120524 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20120531 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20120601 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20150615 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
LAPS | Cancellation because of no payment of annual fees |