JP6600849B2 - 顔文字感情情報抽出システム、方法及びプログラム - Google Patents
顔文字感情情報抽出システム、方法及びプログラム Download PDFInfo
- Publication number
- JP6600849B2 JP6600849B2 JP2015053636A JP2015053636A JP6600849B2 JP 6600849 B2 JP6600849 B2 JP 6600849B2 JP 2015053636 A JP2015053636 A JP 2015053636A JP 2015053636 A JP2015053636 A JP 2015053636A JP 6600849 B2 JP6600849 B2 JP 6600849B2
- Authority
- JP
- Japan
- Prior art keywords
- emoticon
- emotion
- information
- emotion information
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Machine Translation (AREA)
Description
顔文字抽出装置10は、元テキストから顔文字を抽出するための装置であり、元テキストから顔文字と見なせる部分とノイズと見なせる部分を切り出し、切り出した顔文字とパターン化したノイズのパターンをそれぞれ保存する。そのため、以下の処理を行う。
(2)未知語として判定された文字列をノイズ候補若しくは顔文字候補とする。
(3)未知語と判定された文字列を既知情報である顔文字辞書41、ノイズパターン12(後述)、コーパス52と照合する。このとき、未知語、すなわち顔文字候補とノイズ候補を対象に、未知語内の文字の区切り位置の違いによる各パターンの発生確率を計算し、その発生確率を最大にする区切りを判別する。
(4)そして照合の結果抽出された顔文字は後続処理のため一時保存し、ノイズはノイズパターン12に登録する。ただし、ノイズは文字列をそのまま保存するのではなく、正規表現に変換して保存する。
(5)語句の一般的な使用方法の経年変化を見るために、利用するコーパス52は定期的に更新されるものとする。
感情情報付加装置20は、顔文字が含まれている文章から感情語を抽出し、その感情語の感情情報を顔文字の感情情報とするための装置であり、以下の処理を行う。
(2)感情語の抽出は、文を基本単位として行う。文が句点で区切られている場合は、句点若しくは句点相当の文字で区切られている単位を処理単位として感情語を抽出する。この処理単位を本発明では文節とする。
(3)顔文字を含む文若しくは文節の前後に位置する文若しくは文節の感情語を抽出する。
(4)抽出された感情語が感情語辞書42に登録されており、かつ、登録されている感情情報の内容が同じ場合、感情語辞書42に登録された内容をその感情語の感情情報とする。
(5)感情語が感情語辞書42に登録されているが感情情報の内容が異なる場合、新たな感情情報にタイムスタンプをつけて登録する。
(6)感情語が感情語辞書42に登録されていなかった場合は新規登録する。
(7)そして、その文若しくは文節に含まれているすべての感情語の感情情報の集合を、当該顔文字の感情情報として付加する。
(8)このとき、当該顔文字を含んだ文若しくは文節と、上記ステップで処理した文若しくは文節との距離情報を重みとして当該顔文字の感情情報に付加する。
顔文字情報更新装置30は、感情情報データベース40に対して最新の解析結果を常に反映させるための装置である。前記感情情報付加装置の出力結果に、顔文字が使われる状況を付加し、顔文字辞書41に登録する。そのため、以下の処理を行う。
(2)顔文字が顔文字辞書41に登録されていなかった場合、及び顔文字が顔文字辞書41に登録されているが感情情報の内容が異なる場合には、新たな顔文字情報としてタイムスタンプをつけて登録する。
図2は、本発明の実施形態に係る顔文字感情情報抽出システムの機能構成を示す図である。以下では概要で示した機能を機能構成図で説明する。図示するように、本システムは、データベース(DB)として、顔文字辞書41と、感情語辞書42と、ノイズパターン12(ノイズパターン・データベース)とを備える。また、外部のデータベースとして、日本語辞書51と、コーパス52と、外部データ53とに接続されている。また、処理部として、顔文字抽出部11、感情情報抽出部21、感情情報付加部22、使用状況解析部31、辞書更新部32、外部データ登録部60とから構成される。その他、管理者端末70を構成に含めてもよい。ただし、このような構成だけに限定されるものではない。以下、上記の処理部を中心にして順に説明する。
図3は、本発明の実施形態に係る感情情報データベース40(感情語辞書42及び顔文字辞書41)のデータ構造の一例を示す図である。感情情報データベース40は、感情語辞書42と顔文字辞書41で構成される。感情情報データベース40は、「構造化意味情報」で表現したデータベースである。「構造化意味情報」とは、Word Vector(キーワードとキーワードの文書内での出現頻度を要素とする行列)で表現されたBag-of-words(文書中の語からキーワードの集合を作り、文書における発生頻度を特徴量として付加したもの)で表現できるような形式を意味する。
以下、顔文字抽出部11の処理についてさらに詳しく説明する。既に述べたように、既存の方式では、元データのノイズ除去と顔文字の抽出とを逐次実行している。この方式の問題点として、顔文字の識別精度、若しくはノイズの識別精度のどちらか一方あるいは双方が悪くなる可能性がある。したがって、本システムの顔文字抽出部11では、ノイズ除去と顔文字の抽出を並行実行することにより、顔文字の抽出の精度を上げると共に、ノイズ要素検出の精度向上を図っている。具体的には、テキストから未知語を抽出し、未知語を対象として顔文字と見なせる部分と、ノイズと見なせる部分を判別し、保存する。
図6は、図5のフローを実施した具体例1を示す図である。この例では、元テキストの“- 金土とストレスが少ないから爽快な気分(^ω^)////”という文について、顔文字、ノイズ抽出の具体的な処理結果が示されている。
図7は、図5のフローを実施した具体例2を示す図である。この例では、元テキストの“- 7位 蟹座 苦手な人に関わっていると、前に進めなくなりそう。心を広く持ってサラっと受け流すのも、ストレスを溜めないコツです。 ■ラベンダーつまようじ ┐(-。-;)┌ヤレヤレ”という文について、顔文字、ノイズ抽出の具体的な処理結果が示されている。
図8は、顔文字感情情報抽出システム100の全体の処理の流れをまとめた具体例を示す図である。この例では、元テキストの“楽しいもんはやめられないもんね●コンサートはストレス発散にもなるしな(^ω^)////”という文について、(1)顔文字とノイズの抽出、(2)感情情報の抽出と付加、及び文脈による重み係数付加、(3)顔文字情報の更新(使用状況キーワード付加)の実行例を示したものである。
10 顔文字抽出装置
11 顔文字抽出部
12 ノイズパターン
20 感情情報付加装置
21 感情情報抽出部
22 感情情報付加部
30 顔文字情報更新装置
31 使用状況解析部
32 辞書更新部
40 感情情報データベース
41 顔文字辞書
42 感情語辞書
50 外部データベース
51 日本語辞書
52 コーパス
53 外部データ
60 外部データ登録部
70 管理者端末
100 顔文字感情情報抽出システム
Claims (8)
- 顔文字が表す感情情報を抽出する顔文字感情情報抽出システムであって、
元テキストから未知語を抽出し、前記未知語をノイズと顔文字とに弁別し、顔文字を抽出する顔文字抽出装置と、
前記顔文字が含まれている文から感情表現を表す感情語を抽出し、前記感情語の感情情報を前記顔文字の感情情報として付加する感情情報付加装置と、
前記顔文字及び顔文字の感情情報を保存する顔文字情報更新装置と、
を備え、
前記感情情報付加装置は、更に、前記顔文字が含まれる文若しくは文節の前後に位置する文若しくは文節の感情語を抽出することを特徴とする字感情情報抽出システム。 - 前記感情情報を、感情を表すキーワード群とその発生頻度を示す特徴量で表現することを特徴とする請求項1に記載の顔文字感情情報抽出システム。
- 前記顔文字に対して複数の感情語が抽出された場合、前記顔文字の感情情報を、複数の感情語の集合で表現することを特徴とする請求項1又は2に記載の顔文字感情情報抽出システム。
- 前記顔文字情報更新装置は、前記顔文字が登録されているが感情情報の内容が異なる場合、新たな感情情報にタイムスタンプをつけて登録することを特徴とする請求項1から3のいずれか1項に記載の顔文字感情情報抽出システム。
- 前記顔文字情報更新装置は、前記顔文字が含まれた文若しくは文節と、感情語が含まれた文若しくは文節との距離情報を重みとして、前記顔文字の感情情報に付加することを特徴とする請求項1から4のいずれか1項に記載の顔文字感情情報抽出システム。
- 前記顔文字情報更新装置は、前記顔文字が含まれた文が含まれる文書を解析して、前記顔文字が使用された状況を表すキーワードを抽出して、前記顔文字の使用状況として前記顔文字の感情情報に付加することを特徴とする請求項1から5のいずれか1項に記載の顔文字感情情報抽出システム。
- 顔文字が表す感情情報を抽出する方法であって、
元テキストから未知語を抽出するステップと、
前記未知語をノイズと顔文字とに弁別し、前記弁別された顔文字を抽出するステップと、
前記顔文字が含まれている文から感情表現を表す感情語を抽出するステップと、
前記感情語の感情情報を前記顔文字の感情情報として付加するステップと、
前記感情語を抽出するステップにおいて、更に、前記顔文字が含まれる文若しくは文節の前後に位置する文若しくは文節の感情語を抽出するステップと、
をコンピュータが実行することを特徴とする方法。 - 顔文字が表す感情情報を抽出するプログラムであって、
元テキストから未知語を抽出するステップと、
前記未知語をノイズと顔文字とに弁別し、前記弁別された顔文字を抽出するステップと、
前記顔文字が含まれている文から感情表現を表す感情語を抽出するステップと、
前記感情語の感情情報を前記顔文字の感情情報として付加するステップと、
前記感情語を抽出するステップにおいて、更に、前記顔文字が含まれる文若しくは文節の前後に位置する文若しくは文節の感情語を抽出するステップと、
をコンピュータに実行させることを特徴とするプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015053636A JP6600849B2 (ja) | 2015-03-17 | 2015-03-17 | 顔文字感情情報抽出システム、方法及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015053636A JP6600849B2 (ja) | 2015-03-17 | 2015-03-17 | 顔文字感情情報抽出システム、方法及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2016173742A JP2016173742A (ja) | 2016-09-29 |
JP6600849B2 true JP6600849B2 (ja) | 2019-11-06 |
Family
ID=57008212
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2015053636A Active JP6600849B2 (ja) | 2015-03-17 | 2015-03-17 | 顔文字感情情報抽出システム、方法及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6600849B2 (ja) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108241682B (zh) * | 2016-12-26 | 2021-03-30 | 北京国双科技有限公司 | 确定文本情感的方法及装置 |
US10558757B2 (en) | 2017-03-11 | 2020-02-11 | International Business Machines Corporation | Symbol management |
CN116805147B (zh) * | 2023-02-27 | 2024-03-22 | 杭州城市大脑有限公司 | 应用于城市大脑自然语言处理的文本标注方法及装置 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4853915B2 (ja) * | 2006-10-19 | 2012-01-11 | Kddi株式会社 | 検索システム |
JP2010102564A (ja) * | 2008-10-24 | 2010-05-06 | Nippon Telegr & Teleph Corp <Ntt> | 感情特定装置、その方法、プログラム及び記録媒体 |
JP2011043938A (ja) * | 2009-08-20 | 2011-03-03 | Nec Corp | メッセージ作成支援装置 |
-
2015
- 2015-03-17 JP JP2015053636A patent/JP6600849B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2016173742A (ja) | 2016-09-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Laboreiro et al. | Tokenizing micro-blogging messages using a text classification approach | |
JP6466952B2 (ja) | 文章生成システム | |
US10031839B2 (en) | Constraint extraction from natural language text for test data generation | |
WO2009035863A2 (en) | Mining bilingual dictionaries from monolingual web pages | |
US11386269B2 (en) | Fault-tolerant information extraction | |
US11593557B2 (en) | Domain-specific grammar correction system, server and method for academic text | |
Saloot et al. | An architecture for Malay Tweet normalization | |
JP6600849B2 (ja) | 顔文字感情情報抽出システム、方法及びプログラム | |
Nehar et al. | Rational kernels for Arabic root extraction and text classification | |
Tufiş et al. | DIAC+: A professional diacritics recovering system | |
JP2019083040A (ja) | 文章生成のためのデータを生成するシステム及び方法 | |
JP5097802B2 (ja) | ローマ字変換を用いる日本語自動推薦システムおよび方法 | |
JP6508676B2 (ja) | 顔文字抽出装置、方法及びプログラム | |
JP5623380B2 (ja) | 誤り文修正装置、誤り文修正方法およびプログラム | |
Oudah et al. | Person name recognition using the hybrid approach | |
Mekki et al. | Tokenization of Tunisian Arabic: a comparison between three Machine Learning models | |
Mukund et al. | NE tagging for Urdu based on bootstrap POS learning | |
Hakkani-Tür et al. | Morphological disambiguation for Turkish | |
JP2007058415A (ja) | テキストマイニング装置、テキストマイニング方法、およびテキストマイニング用プログラム | |
JP2009176148A (ja) | 未知語判定システム、方法及びプログラム | |
Lundborg | Text classification of short messages | |
JP2014215970A (ja) | 誤り検出装置、方法、及びプログラム | |
Naserzade et al. | CKMorph: a comprehensive morphological analyzer for Central Kurdish | |
JP7326637B2 (ja) | チャンキング実行システム、チャンキング実行方法、及びプログラム | |
Rodrigues et al. | Arabic data science toolkit: An api for arabic language feature extraction |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20180221 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20190128 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20190226 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20190417 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20190910 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20190913 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6600849 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |