JP6600849B2 - 顔文字感情情報抽出システム、方法及びプログラム - Google Patents

顔文字感情情報抽出システム、方法及びプログラム Download PDF

Info

Publication number
JP6600849B2
JP6600849B2 JP2015053636A JP2015053636A JP6600849B2 JP 6600849 B2 JP6600849 B2 JP 6600849B2 JP 2015053636 A JP2015053636 A JP 2015053636A JP 2015053636 A JP2015053636 A JP 2015053636A JP 6600849 B2 JP6600849 B2 JP 6600849B2
Authority
JP
Japan
Prior art keywords
emoticon
emotion
information
emotion information
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2015053636A
Other languages
English (en)
Other versions
JP2016173742A (ja
Inventor
喜嗣 掛本
久 橋本
謙五 中村
奈越子 月原
洋一 山野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
JSOL Corp
Original Assignee
JSOL Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by JSOL Corp filed Critical JSOL Corp
Priority to JP2015053636A priority Critical patent/JP6600849B2/ja
Publication of JP2016173742A publication Critical patent/JP2016173742A/ja
Application granted granted Critical
Publication of JP6600849B2 publication Critical patent/JP6600849B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Description

本発明は、顔文字を含んだ文書を処理するシステム又は装置、その方法、及びプログラムに関する。
近年、書き手側の気持ちや感情を、顔文字を使って表現し、メール、ツイート、ブログ等の文章に埋め込んで、受け手側に伝えることが盛んに行われている。そのための技術もいくつか存在し、例えば、特許文献1には、様々な顔文字の含まれる文章から顔文字を認識し、顔文字が表現する意味を適切な言葉に置き換えることが可能なテキスト音声出力のための装置が開示されている。また、特許文献2には、顔文字によって表される感情の特定処理の効率化を図るとともに特定精度を向上させることの可能な感情特定装置が開示されている。
特開2005−284192号公報 特開2010−102564号公報
しかしながら、上記の特許文献に記載のような顔文字処理は、顔文字を抽出する段階で、ノイズの除去と顔文字の抽出を別のステップで実施しているため抽出精度が悪くなるという課題がある。また、書き手の気持ちや感情を表す感性情報の種類が少なく、抽出した顔文字と感性情報の結びつけに労力を有するといった課題がある。
本発明では、顔文字に込められた感情情報を精度よく抽出し、かつ抽出した感情情報が使用される状況等の追加情報と共に保持可能なシステムを提供することを目的とする。
上記課題を解決するため、本発明の顔文字感情情報抽出システム等は、以下のような解決手段を提供する。
請求項1に記載の発明は、顔文字が表す感情情報を抽出する顔文字感情情報抽出システムであって、元テキストから未知語を抽出し、前記未知語をノイズと顔文字とに弁別し、顔文字を抽出する顔文字抽出装置と、前記顔文字が含まれている文から感情表現を表す感情語を抽出し、前記感情語の感情情報を前記顔文字の感情情報として付加する感情情報付加装置と、前記顔文字及び顔文字の感情情報を保存する顔文字情報更新装置と、を備えることを特徴とする。
請求項2に記載の発明は、請求項1のシステムにおいて、前記感情情報を、感情を表すキーワード群とその発生頻度を示す特徴量で表現することを特徴とする。
請求項3に記載の発明は、請求項1又は2のシステムにおいて、前記顔文字に対して複数の感情語が抽出された場合、前記顔文字の感情情報を、複数の感情語の集合で表現することを特徴とする。
請求項4に記載の発明は、請求項1〜3のいずれかのシステムにおいて、前記顔文字情報更新装置は、前記顔文字が登録されているが感情情報の内容が異なる場合、新たな感情情報にタイムスタンプをつけて登録することを特徴とする。
請求項5に記載の発明は、請求項1〜4のいずれかのシステムにおいて、前記感情情報付加装置は、前記顔文字が含まれる文若しくは文節の前後に位置する文若しくは文節の感情情報を抽出することを特徴とする。
請求項6に記載の発明は、請求項1〜5のいずれかのシステムにおいて、前記顔文字情報更新装置は、前記顔文字が含まれた文若しくは文節と、感情語が含まれた文若しくは文節との距離情報を重みとして、前記顔文字の感情情報に付加することを特徴とする。
請求項7に記載の発明は、請求項1〜6にいずれかのシステムにおいて、前記顔文字情報更新装置は、前記顔文字が含まれた文が含まれる文書を解析して、前記顔文字が使用された状況を表すキーワードを抽出して、前記顔文字の使用状況として前記顔文字の感情情報に付加することを特徴とする。
請求項8に記載の発明は、顔文字が表す感情情報を抽出する方法であって、元テキストから未知語を抽出するステップと、前記未知語をノイズと顔文字とに弁別し、前記弁別された顔文字を抽出するステップと、前記顔文字が含まれている文から感情表現を表す感情語を抽出するステップと、前記感情語の感情情報を前記顔文字の感情情報として付加するステップと、を含むことを特徴とする。
請求項9に記載の発明は、顔文字が表す感情情報を抽出するプログラムであって、元テキストから未知語を抽出するステップと、前記未知語をノイズと顔文字とに弁別し、前記弁別された顔文字を抽出するステップと、前記顔文字が含まれている文から感情表現を表す感情語を抽出するステップと、前記感情語の感情情報を前記顔文字の感情情報として付加するステップと、をコンピュータに実行させることを特徴とする。
請求項1に記載の発明によれば、顔文字を含んだ文から顔文字に込められた感情情報を抽出するためのシステムを提供することができる。
また、請求項2に記載の発明によれば、顔文字の感情情報を、複数の属性と特徴量で定量的に表現することができる。
また、請求項3に記載の発明によれば、複数の感情語を併せ持つものとして顔文字を取り扱うことができる。
また、請求項4に記載の発明によれば、顔文字を含んだ文書のタイムスタンプを記録することで顔文字の感情情報の経年変化を取り扱うことができる。
また、請求項5に記載の発明によれば、顔文字が含まれる文だけでなく、前後の文脈を加味することで顔文字の感情情報をより精度よく抽出することができる。
また、請求項6に記載の発明によれば、顔文字が含まれた文若しくは文節に近い文若しくは文節に含まれた感情語ほど、その重み付けを高くすることができる。
また、請求項7に記載の発明によれば、顔文字が使用された状況を顔文字の感情情報に付加するので感情情報の抽出に役立つ。
また、請求項8に記載の発明によれば、顔文字を含んだ文から顔文字に込められた感情情報を抽出するための方法を提供することができる。
また、請求項9の記載の発明によれば、顔文字を含んだ文から顔文字に込められた感情情報を抽出するためのプログラムを提供することができる。
本発明の実施形態に係る顔文字感情情報抽出システムの基本構成を示す図である。 本発明の実施形態に係る顔文字感情情報抽出システムの機能構成を示す図である。 本発明の実施形態に係る感情情報データベースのデータ構造の一例を示す図である。 本発明の実施形態に係る顔文字抽出装置の顔文字とノイズパターンを抽出するイメージを示す図である。 本発明の実施形態に係る顔文字抽出装置の処理フローを示す図である。 顔文字抽出の具体例1を示す図である。 顔文字抽出の具体例2を示す図である。 顔文字感情情報抽出システムの全体の処理の具体例を示す図である。
以下、添付図面を参照して、本発明を実施するための形態(以下、実施形態と呼ぶ)について詳細に説明する。以降の説明では、「顔文字」とは、文書中で、通常の文法では不正な要素であるが、何らかの意味を持って使われている文字列を指すものとする。また、「文書」とは、セクション(章、節など)→段落→文→文節→語→文字(キャラクタ)で構成され、「文」とは、読点又はそれを意味する語で区切られているものを指す。また、ここでいう「文字」とは、言葉(言語)を伝達し記録するために線や点を使って形作られた記号を意味し、英数記号、漢字、かな文字等だけでなく、絵文字やスタンプ等の任意の図形に識別コードが付されたものを含むものとする。
また、以降の図においては、実施形態の説明の全体を通して同じ要素には同じ番号または符号を付している。また、機能構成の図において、機能ブロック間の矢印は、データの流れ方向、又は処理の流れ方向を表す。また、処理フロー図(フローチャート)においては、各ステップの入力と出力の関係を損なわない限り、各ステップの処理順序を入れ替えてもよい。
図1は、本発明の実施形態に係る顔文字感情情報抽出システムの基本構成を示す図である。本実施形態の顔文字感情情報抽出システム100(以下、本システムと呼ぶ)は、図示するように、主として、顔文字抽出装置10、感情情報付加装置20、顔文字情報更新装置30、及び感情情報データベース40で構成される。感情情報データベース40には、顔文字辞書41と感情語辞書42が含まれる。まず、各装置の処理の概要を説明する。
(顔文字抽出装置)
顔文字抽出装置10は、元テキストから顔文字を抽出するための装置であり、元テキストから顔文字と見なせる部分とノイズと見なせる部分を切り出し、切り出した顔文字とパターン化したノイズのパターンをそれぞれ保存する。そのため、以下の処理を行う。
(1)入力された元テキストを全角文字に変換(全角変換)し、変換したデータを構文解析(文を単語に分解する形態素解析)し、「未知語」を抽出する。「未知語」の判定には、外部データベース50として、既存の日本語辞書51、コーパス52(自然言語の文章を大規模に集積したデータベース)を参照する。また、構文解析器5は公知のものを利用する。
(2)未知語として判定された文字列をノイズ候補若しくは顔文字候補とする。
(3)未知語と判定された文字列を既知情報である顔文字辞書41、ノイズパターン12(後述)、コーパス52と照合する。このとき、未知語、すなわち顔文字候補とノイズ候補を対象に、未知語内の文字の区切り位置の違いによる各パターンの発生確率を計算し、その発生確率を最大にする区切りを判別する。
(4)そして照合の結果抽出された顔文字は後続処理のため一時保存し、ノイズはノイズパターン12に登録する。ただし、ノイズは文字列をそのまま保存するのではなく、正規表現に変換して保存する。
(5)語句の一般的な使用方法の経年変化を見るために、利用するコーパス52は定期的に更新されるものとする。
(感情情報付加装置)
感情情報付加装置20は、顔文字が含まれている文章から感情語を抽出し、その感情語の感情情報を顔文字の感情情報とするための装置であり、以下の処理を行う。
(1)感情語及び感情情報の抽出方式は、PLSI(Probabilistic Latent Semantic Indexing)若しくはその改良版であるLDA(Latent Dirichlet Allocation)、Skip-gram等公知の方式を用いるものとする。いずれの方式を用いても本装置の入力、出力は同じである。
(2)感情語の抽出は、文を基本単位として行う。文が句点で区切られている場合は、句点若しくは句点相当の文字で区切られている単位を処理単位として感情語を抽出する。この処理単位を本発明では文節とする。
(3)顔文字を含む文若しくは文節の前後に位置する文若しくは文節の感情語を抽出する。
(4)抽出された感情語が感情語辞書42に登録されており、かつ、登録されている感情情報の内容が同じ場合、感情語辞書42に登録された内容をその感情語の感情情報とする。
(5)感情語が感情語辞書42に登録されているが感情情報の内容が異なる場合、新たな感情情報にタイムスタンプをつけて登録する。
(6)感情語が感情語辞書42に登録されていなかった場合は新規登録する。
(7)そして、その文若しくは文節に含まれているすべての感情語の感情情報の集合を、当該顔文字の感情情報として付加する。
(8)このとき、当該顔文字を含んだ文若しくは文節と、上記ステップで処理した文若しくは文節との距離情報を重みとして当該顔文字の感情情報に付加する。
(顔文字情報更新装置)
顔文字情報更新装置30は、感情情報データベース40に対して最新の解析結果を常に反映させるための装置である。前記感情情報付加装置の出力結果に、顔文字が使われる状況を付加し、顔文字辞書41に登録する。そのため、以下の処理を行う。
(1)顔文字を抽出した元テキストの状況を示す情報(後述)、顔文字を含んだ文を解析して、顔文字が使用された状況(場所、使用者など)を表すキーワードを抽出して、顔文字が使われた状況を示す情報として保存する。
(2)顔文字が顔文字辞書41に登録されていなかった場合、及び顔文字が顔文字辞書41に登録されているが感情情報の内容が異なる場合には、新たな顔文字情報としてタイムスタンプをつけて登録する。
(機能構成)
図2は、本発明の実施形態に係る顔文字感情情報抽出システムの機能構成を示す図である。以下では概要で示した機能を機能構成図で説明する。図示するように、本システムは、データベース(DB)として、顔文字辞書41と、感情語辞書42と、ノイズパターン12(ノイズパターン・データベース)とを備える。また、外部のデータベースとして、日本語辞書51と、コーパス52と、外部データ53とに接続されている。また、処理部として、顔文字抽出部11、感情情報抽出部21、感情情報付加部22、使用状況解析部31、辞書更新部32、外部データ登録部60とから構成される。その他、管理者端末70を構成に含めてもよい。ただし、このような構成だけに限定されるものではない。以下、上記の処理部を中心にして順に説明する。
外部データ登録部60は、顔文字及び感情情報に関する既知の情報であって本システムの外部に存在する情報(外部データ53)を選択し、感情語辞書42、顔文字辞書41に登録・更新する。外部データ53は、本システムの初期データのセットアップで所与のデータである。感情語が含まれている文書における他の感情語とその発生頻度を感情情報とする。初期の感情情報(後述の図3参照)は、例えば中村明による基本感情10種類(「感情表現辞典」,六興出版1979/08刊)等を参考して、予め感情の属性(属性ラベル)を決めておいてもよい。なお、外部データ53の選択や追加、更新のタイミングは、本システムの設定による他、管理者端末70からの指示を受けて行うようにしてもよい。
顔文字抽出部11は、処理すべき文書のテキストデータの集合である元テキストを入力とし、顔文字と見なせる部分とノイズと見なせる部分を識別する。顔文字と識別した部分を顔文字辞書41に格納される顔文字情報の見出し語として登録する。ノイズと識別した部分は、正規表現形式に変換して、ノイズパターン12に登録する。この識別には、日本語辞書51とコーパス52を参照する。日本語辞書51は、構文解析器(ChasenやMeCab等)が参照する形態素情報を定義する電子化された辞書であり、公知のものでよい。また、コーパス52も、外部のデータベース(例えば、国立国語研究所の「KOTONOHA計画」のデータベース等)を利用してもよい。なお、顔文字抽出部11とノイズパターン12が顔文字抽出装置10を構成するが、その構成だけに限定されない。
顔文字抽出部11は、まず元テキストの半角文字を全角文字に変換する。全角変換するのは、構文解析器5が英文法に基づいて解析するのを避けるためである。つぎに、顔文字を抽出するために、元テキストから「未知語」を抽出する。顔文字も未知語として抽出される。そして、未知語をさらに「ノイズ」と顔文字とに切り分ける(弁別する)。ここでいうノイズとは、日本語辞書51にない用語であって、かつ顔文字として判別できない文字列を意味する。ノイズと顔文字を切り分ける方法の詳細については後述する。そして、顔文字と判定された文字列のパターンを顔文字辞書41にデータベース化して登録・更新し、ノイズと判定された文字列のパターンをノイズパターン12にデータベース化して登録・更新する。ただし、ノイズは文字列をそのまま保存するのではなく、正規表現に変換して保存する。
感情情報抽出部21は、感情語辞書42を参照し、顔文字抽出部11によって抽出された顔文字に含まれる「感情情報」を抽出する。感情情報の抽出方式としては、前述のPLSI(Probabilistic Latent Semantic Indexing)若しくはその改良版であるLDA(Latent Dirichlet Allocation)、Skip-gram等の公知の方式を用いてよい。そして、感情情報付加部22が、抽出された感情情報を顔文字に付加し、顔文字辞書41に登録し、逐次更新していく。そして、登録・更新された顔文字と感情情報は、次回の顔文字の抽出と、その顔文字に対する感情情報の付加時に参照される。なお、感情情報抽出部21と感情情報付加部22が感情情報付加装置20を構成するが、その構成だけに限定されない。
さらに、感情情報付加部22は、付加した感情語の文脈情報を解析して付加する。顔文字が表す感情は、単文だけで判断しても抽出できないことがあるからである。このとき管理者端末70から人間の手によって妥当かどうかを判断してもよい。すなわち、文脈による顔文字の感情の変化を分析し、顔文字辞書41に登録されている感情情報とのズレを調整する。さらに、顔文字が使われる「状況」を付加する。なお、使用状況解析部31と辞書更新部32が顔文字情報更新装置30を構成するが、その構成だけに限定されない。
管理者端末70は、人間の手によって、感情情報データベース40を適宜チェックし、必要があれば修正する手段を備えた端末である。また、管理者端末70は、本システムの設定(元テキスト、コーパス52、外部データ53等の選択や更新タイミング等の設定)を指示するための手段も有する。
(感情情報データベース)
図3は、本発明の実施形態に係る感情情報データベース40(感情語辞書42及び顔文字辞書41)のデータ構造の一例を示す図である。感情情報データベース40は、感情語辞書42と顔文字辞書41で構成される。感情情報データベース40は、「構造化意味情報」で表現したデータベースである。「構造化意味情報」とは、Word Vector(キーワードとキーワードの文書内での出現頻度を要素とする行列)で表現されたBag-of-words(文書中の語からキーワードの集合を作り、文書における発生頻度を特徴量として付加したもの)で表現できるような形式を意味する。
感情語辞書42の構造化意味情報は、見出し語と見出し語の意味を表現する属性群からなる行列及びタイムスタンプから構成される。行列の要素は、見出し語の発生状態に関する数値情報(発生確率等の発生頻度と相関する数値)である。ここでいう見出し語は、一般に感情を表す用語として確立している用語(例えば、「うれしい」、「楽しい」等)を意味する。また見出し語の意味を表現する属性とは、感情を表すキーワードで表現する。ここでは、感情を表すキーワードとして、前述の基本感情10種類(「喜」(喜び)、「怒」(怒り)、「哀」(哀しみ)、「怖」(恐怖心)、「恥」(羞恥心)、「好」(好感)、「厭」(嫌悪感)、「昴」(高揚感)、「安」(安心感)、「驚」(驚き))を示しているが、これらに限定されるものではない。ここで、キーワードとは文、あるいは文書の意味を表わす統制された単語である。ただし、動詞、形容動詞の場合は、活用は無視して、原形を使用する。タイムスタンプは、その用語を抽出した文書の発行日等が特定できる場合は、時間に関する情報を記載したものである。
顔文字辞書41の構造化意味情報は、見出し語と見出し語の意味を表現する属性群からなる行列、タイムスタンプ、文脈情報、使用状況を示すキーワード群から構成される。ここでの見出し語は顔文字が格納される。見出し語の意味表現に用いる行列の各セルの値は、発生確率等の発生頻度と相関する数値が格納される。例えば、図3(b)の見出し語の顔文字“(^0^)”は、「喜」の感情が0.8、「好」の感情が0.1の確率で存在することを意味している。タイムスタンプは、その用語を抽出した文書の発行日等が特定できる場合は、時間に関する情報を記載したもので図3(a)の場合と同様である。
顔文字辞書41には、感情語辞書42にはない「文脈情報」と「使用状況キーワード」が追加される。感情表現は、使用される状況や時期によって感情内容が変化すると考えられるからである。
ここで、文脈情報とは、顔文字が抽出された文節と、感情を表す用語が別々の文節に抽出された場合、その文節間あるいは文間の距離情報に応じて、顔文字に付加する感情情報の値に重み付けをするための係数である。例えば、図3(b)の顔文字“(^ω^)”の文脈情報には、「0.5」と格納されているが、これは抽出された感情情報の値が通常の2分の1として重み付けしてもよいことを意味する。具体例については後述の図8で説明する。
また、使用状況キーワードとは、抽出した元テキストの状況を示す情報であり、元テキストの出典と、付随して得られる情報があれば、その情報をキーワード化して格納する。例えば、元テキストがブログやツイートであれば、その文章を発信した人物の年齢、性別、場所等を特定できる可能性が高いので、それらの情報をキーワードとして顔文字辞書41に格納する。
なお、感情情報の抽出は元テキストから自動的に抽出する。ただし、抽出された結果を、人間がチェック及び修正を定期的に行うようにしてもよい。
上記のシステムの機能構成は、あくまで一例であり、一つの機能ブロック(データベース及び処理部)を分割したり、複数の機能ブロックをまとめて一つの機能ブロックとして構成したりしてもよい。各処理部は、装置に内蔵されたCPU(Central Processing Unit)が、ROM(Read Only Memory)またはハードディスク等の記憶装置に格納されたコンピュータ・プログラムを読み出し、又は外部からダウンロードし、CPUにより実行されたコンピュータ・プログラムによって実現される。すなわち、各処理部は、このコンピュータ・プログラムが、記憶装置に格納されたデータベース(DB;Data Base)やメモリ上の記憶領域からテーブル等の必要なデータを読み書きし、場合によっては、関連するハードウェア(例えば、入出力装置、表示装置、通信インターフェース装置)を制御することによって実現される。また、本発明の実施形態におけるデータベース(DB)は、商用データベースであってよいが、単なるテーブルやファイルの集合体をも意味し、データベースの内部構造自体は問わないものとする。
(顔文字抽出の処理フロー)
以下、顔文字抽出部11の処理についてさらに詳しく説明する。既に述べたように、既存の方式では、元データのノイズ除去と顔文字の抽出とを逐次実行している。この方式の問題点として、顔文字の識別精度、若しくはノイズの識別精度のどちらか一方あるいは双方が悪くなる可能性がある。したがって、本システムの顔文字抽出部11では、ノイズ除去と顔文字の抽出を並行実行することにより、顔文字の抽出の精度を上げると共に、ノイズ要素検出の精度向上を図っている。具体的には、テキストから未知語を抽出し、未知語を対象として顔文字と見なせる部分と、ノイズと見なせる部分を判別し、保存する。
図4は、顔文字とノイズパターンを抽出するイメージを示した図である。抽出した顔文字は顔文字辞書41に格納される。ただし、顔文字辞書41には、その他の情報も格納されるのでこれについては後述する。また、図のノイズパターンの例は、正規化表現した例で、“/[2,5]”は、“/”の出現回数が2以上で5以下であることを示している。
図5は、顔文字抽出の処理フローを示した図である。ステップS1では、既に述べたように、元テキストの半角(1バイト文字)の英数字、記号、カタカナを全角文字(複数バイト文字)に変換する。そして以下のステップS2〜S5を元テキストの文ごとに実施する。
ステップS2では、全角変換した文を構文解析(形態素解析)する。構文解析の結果、得られた形態素を日本語辞書51、コーパス52と照合することによって、未知語と判別された文字列をノイズ若しくは顔文字の候補とする。文字列が識別コードを付された絵文字やスタンプであっても同様である。
そしてステップS3では、ステップS2の結果、未知語と判別された語と既知情報(顔文字辞書41に格納された顔文字パターン、ノイズパターン12、コーパス52)とを照合する。コーパス52と照合するのは未知語若しくはその部分の使用状況を確認するためである。未知語とされた語の文字数が複数の場合、最初の1文字目、2文字目、・・・、n文字目と文字数を増やしながら照合を行い、各場合の照合結果を求める。先頭の一文字目の処理が終了したら、2文字目から同様の処理を行う。以下、成分の(最終−1)文字目まで、同様の処理を行う。つまり、未知語を構成する文字列パターン全てを、顔文字辞書41に登録された顔文字の文字列パターン及びノイズパターン12に登録されたノイズの文字列パターンと照合する。
ステップS4では、上記の照合の結果から、未知語とされた語を対象に、未知語内の文字の区切り位置の違いによる各パターンの発生確率を計算し、その発生確率が最大である区切りを決定する。ステップS5では、ステップS4で決定した区切り位置に基づいて、未知語から顔文字若しくはノイズを切り出す。切り出した顔文字若しくはノイズを用いて、既知情報のうち、顔文字辞書41とノイズパターン12を更新する。つまり、各パターンの発生確率を最大にするような未知語の中の文字の区切りを決定し、その区切りによって顔文字の文字列の範囲を特定し、顔文字辞書41に登録する。ノイズとして切り出した文字列は、正規表現に変換後、ノイズパターン12に登録する。
(具体例1)
図6は、図5のフローを実施した具体例1を示す図である。この例では、元テキストの“- 金土とストレスが少ないから爽快な気分(^ω^)////”という文について、顔文字、ノイズ抽出の具体的な処理結果が示されている。
この文は半角文字と全角文字が混じっているが、まず全角変換を行った後、未知語を抽出した結果は、“− CNTL-A(^ω^)////”となる。ただし、CNTL-Aはダミーの区切り文字で、その位置に既知語又はその文章が存在していたことを示す。また、図中の“[”、“]”は、抽出結果には含まれないが、ノイズと顔文字の区切りを示すためのメタ記号である。この時点では、“− ”と“(^ω^)////”がノイズ候補及び顔文字候補であるが、それぞれの候補に対して、1文字ずつ区切り位置を変化させ、顔文字辞書、ノイズパターン、コーパスと照合し、一致度を計算することによって、全ての区切り位置での文字パターンの発生確率を計算し、発生確率の最も高い区切りの文字列のパターンを見つけ、最終的に顔文字が“(^ω^)”で、ノイズが“− ”と“////”であると抽出される。ここでは、“////”は、ノイズとして抽出されているが、“(^ω^)”と“/”の発生確率(共起確率)が高くなれば、“(^ω^)/”や“(^ω^)//”等も一つの顔文字として抽出されることになる。
(具体例2)
図7は、図5のフローを実施した具体例2を示す図である。この例では、元テキストの“- 7位 蟹座 苦手な人に関わっていると、前に進めなくなりそう。心を広く持ってサラっと受け流すのも、ストレスを溜めないコツです。 ■ラベンダーつまようじ ┐(-。-;)┌ヤレヤレ”という文について、顔文字、ノイズ抽出の具体的な処理結果が示されている。
この文も半角(記号とカタカナを含む)と全角が混じった文である。さらに複数の文節が記号“■”で区切られている。このような文であってもまず、全角変換を行った後、顔文字辞書、ノイズパターン、コーパスと照合を行い、未知語を抽出した結果は、“− CNTL-A■CNTL-A┐(―。−;)┌CNTL-A”となる。この段階では、“■”は未知語として抽出されている。CNTL-Aは前図と同様に、ダミーの区切り文字である。最終段階でも“■”はノイズとして抽出される。
(具体例3)
図8は、顔文字感情情報抽出システム100の全体の処理の流れをまとめた具体例を示す図である。この例では、元テキストの“楽しいもんはやめられないもんね●コンサートはストレス発散にもなるしな(^ω^)////”という文について、(1)顔文字とノイズの抽出、(2)感情情報の抽出と付加、及び文脈による重み係数付加、(3)顔文字情報の更新(使用状況キーワード付加)の実行例を示したものである。
この例では、上記の文が“●”が文節の区切りであると判定され、文節1と文節2に分けられている。また、文節1から「楽しい」という感情情報のキーワードが抽出され、文節2から顔文字“(^ω^)”が抽出されている。
感情語辞書42の見出し語「楽しい」には、「喜」属性に「0.6」、「好」属性に「0.2」、「安」属性に「0.2」が格納されているとすると、これらの数値を顔文字辞書41の“(^ω^)”に感情情報として付加する。ただし、“(^ω^)”は、顔文字辞書41に今回初めて登録された顔文字とする。さらに顔文字が抽出された文節と「楽しい」が抽出された文節が異なるので、文節間の距離情報に応じて、文脈情報の係数が「0.5」として登録される。上記の場合は、文節間の距離(又は該当する文字間の距離)は隣接(距離「1」とする)しているが、文節間の距離がもっと離れていれば、文脈情報の係数もしだいに小さくなり、例えば、さらに文節間の距離が「1」離れるごとに係数も半分になるとすれば、「0.25」、「0.125」等となる。
なお、上記の実施形態では、本発明をシステム又は装置とし、物の発明として説明したが、本発明は、方法の発明、コンピュータ・プログラムの発明としても捉えることもできる。
以上、実施形態を用いて本発明を説明したが、本発明の技術的範囲は上記実施形態に記載の範囲には限定されないことは言うまでもない。上記実施形態に、多様な変更又は改良を加えることが可能であることが当業者に明らかである。またその様な変更または改良を加えた形態も本発明の技術的範囲に含まれ得ることが、特許請求の範囲の記載から明らかである。
5 構文解析器
10 顔文字抽出装置
11 顔文字抽出部
12 ノイズパターン
20 感情情報付加装置
21 感情情報抽出部
22 感情情報付加部
30 顔文字情報更新装置
31 使用状況解析部
32 辞書更新部
40 感情情報データベース
41 顔文字辞書
42 感情語辞書
50 外部データベース
51 日本語辞書
52 コーパス
53 外部データ
60 外部データ登録部
70 管理者端末
100 顔文字感情情報抽出システム

Claims (8)

  1. 顔文字が表す感情情報を抽出する顔文字感情情報抽出システムであって、
    元テキストから未知語を抽出し、前記未知語をノイズと顔文字とに弁別し、顔文字を抽出する顔文字抽出装置と、
    前記顔文字が含まれている文から感情表現を表す感情語を抽出し、前記感情語の感情情報を前記顔文字の感情情報として付加する感情情報付加装置と、
    前記顔文字及び顔文字の感情情報を保存する顔文字情報更新装置と、
    を備え、
    前記感情情報付加装置は、更に、前記顔文字が含まれる文若しくは文節の前後に位置する文若しくは文節の感情語を抽出することを特徴とする字感情情報抽出システム。
  2. 前記感情情報を、感情を表すキーワード群とその発生頻度を示す特徴量で表現することを特徴とする請求項1に記載の顔文字感情情報抽出システム。
  3. 前記顔文字に対して複数の感情語が抽出された場合、前記顔文字の感情情報を、複数の感情語の集合で表現することを特徴とする請求項1又は2に記載の顔文字感情情報抽出システム。
  4. 前記顔文字情報更新装置は、前記顔文字が登録されているが感情情報の内容が異なる場合、新たな感情情報にタイムスタンプをつけて登録することを特徴とする請求項1から3のいずれか1項に記載の顔文字感情情報抽出システム。
  5. 前記顔文字情報更新装置は、前記顔文字が含まれた文若しくは文節と、感情語が含まれた文若しくは文節との距離情報を重みとして、前記顔文字の感情情報に付加することを特徴とする請求項1から4のいずれか1項に記載の顔文字感情情報抽出システム。
  6. 前記顔文字情報更新装置は、前記顔文字が含まれた文が含まれる文書を解析して、前記顔文字が使用された状況を表すキーワードを抽出して、前記顔文字の使用状況として前記顔文字の感情情報に付加することを特徴とする請求項1から5のいずれか1項に記載の顔文字感情情報抽出システム。
  7. 顔文字が表す感情情報を抽出する方法であって、
    元テキストから未知語を抽出するステップと、
    前記未知語をノイズと顔文字とに弁別し、前記弁別された顔文字を抽出するステップと、
    前記顔文字が含まれている文から感情表現を表す感情語を抽出するステップと、
    前記感情語の感情情報を前記顔文字の感情情報として付加するステップと、
    前記感情語を抽出するステップにおいて、更に、前記顔文字が含まれる文若しくは文節の前後に位置する文若しくは文節の感情語を抽出するステップと、
    コンピュータが実行することを特徴とする方法。
  8. 顔文字が表す感情情報を抽出するプログラムであって、
    元テキストから未知語を抽出するステップと、
    前記未知語をノイズと顔文字とに弁別し、前記弁別された顔文字を抽出するステップと、
    前記顔文字が含まれている文から感情表現を表す感情語を抽出するステップと、
    前記感情語の感情情報を前記顔文字の感情情報として付加するステップと、
    前記感情語を抽出するステップにおいて、更に、前記顔文字が含まれる文若しくは文節の前後に位置する文若しくは文節の感情語を抽出するステップと、
    をコンピュータに実行させることを特徴とするプログラム。
JP2015053636A 2015-03-17 2015-03-17 顔文字感情情報抽出システム、方法及びプログラム Active JP6600849B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2015053636A JP6600849B2 (ja) 2015-03-17 2015-03-17 顔文字感情情報抽出システム、方法及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2015053636A JP6600849B2 (ja) 2015-03-17 2015-03-17 顔文字感情情報抽出システム、方法及びプログラム

Publications (2)

Publication Number Publication Date
JP2016173742A JP2016173742A (ja) 2016-09-29
JP6600849B2 true JP6600849B2 (ja) 2019-11-06

Family

ID=57008212

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015053636A Active JP6600849B2 (ja) 2015-03-17 2015-03-17 顔文字感情情報抽出システム、方法及びプログラム

Country Status (1)

Country Link
JP (1) JP6600849B2 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108241682B (zh) * 2016-12-26 2021-03-30 北京国双科技有限公司 确定文本情感的方法及装置
US10558757B2 (en) 2017-03-11 2020-02-11 International Business Machines Corporation Symbol management
CN116805147B (zh) * 2023-02-27 2024-03-22 杭州城市大脑有限公司 应用于城市大脑自然语言处理的文本标注方法及装置

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4853915B2 (ja) * 2006-10-19 2012-01-11 Kddi株式会社 検索システム
JP2010102564A (ja) * 2008-10-24 2010-05-06 Nippon Telegr & Teleph Corp <Ntt> 感情特定装置、その方法、プログラム及び記録媒体
JP2011043938A (ja) * 2009-08-20 2011-03-03 Nec Corp メッセージ作成支援装置

Also Published As

Publication number Publication date
JP2016173742A (ja) 2016-09-29

Similar Documents

Publication Publication Date Title
Laboreiro et al. Tokenizing micro-blogging messages using a text classification approach
JP6466952B2 (ja) 文章生成システム
US10031839B2 (en) Constraint extraction from natural language text for test data generation
WO2009035863A2 (en) Mining bilingual dictionaries from monolingual web pages
US11386269B2 (en) Fault-tolerant information extraction
US11593557B2 (en) Domain-specific grammar correction system, server and method for academic text
Saloot et al. An architecture for Malay Tweet normalization
JP6600849B2 (ja) 顔文字感情情報抽出システム、方法及びプログラム
Nehar et al. Rational kernels for Arabic root extraction and text classification
Tufiş et al. DIAC+: A professional diacritics recovering system
JP2019083040A (ja) 文章生成のためのデータを生成するシステム及び方法
JP5097802B2 (ja) ローマ字変換を用いる日本語自動推薦システムおよび方法
JP6508676B2 (ja) 顔文字抽出装置、方法及びプログラム
JP5623380B2 (ja) 誤り文修正装置、誤り文修正方法およびプログラム
Oudah et al. Person name recognition using the hybrid approach
Mekki et al. Tokenization of Tunisian Arabic: a comparison between three Machine Learning models
Mukund et al. NE tagging for Urdu based on bootstrap POS learning
Hakkani-Tür et al. Morphological disambiguation for Turkish
JP2007058415A (ja) テキストマイニング装置、テキストマイニング方法、およびテキストマイニング用プログラム
JP2009176148A (ja) 未知語判定システム、方法及びプログラム
Lundborg Text classification of short messages
JP2014215970A (ja) 誤り検出装置、方法、及びプログラム
Naserzade et al. CKMorph: a comprehensive morphological analyzer for Central Kurdish
JP7326637B2 (ja) チャンキング実行システム、チャンキング実行方法、及びプログラム
Rodrigues et al. Arabic data science toolkit: An api for arabic language feature extraction

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180221

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20190128

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190226

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190417

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190910

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190913

R150 Certificate of patent or registration of utility model

Ref document number: 6600849

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250