JP2013171462A - フレーズ検出装置およびそのプログラム - Google Patents

フレーズ検出装置およびそのプログラム Download PDF

Info

Publication number
JP2013171462A
JP2013171462A JP2012035515A JP2012035515A JP2013171462A JP 2013171462 A JP2013171462 A JP 2013171462A JP 2012035515 A JP2012035515 A JP 2012035515A JP 2012035515 A JP2012035515 A JP 2012035515A JP 2013171462 A JP2013171462 A JP 2013171462A
Authority
JP
Japan
Prior art keywords
language element
language
gram
string
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2012035515A
Other languages
English (en)
Other versions
JP5879150B2 (ja
Inventor
Takeshi Kobayakawa
健 小早川
Mariko Hirano
真理子 平野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Japan Broadcasting Corp
Original Assignee
Nippon Hoso Kyokai NHK
Japan Broadcasting Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Hoso Kyokai NHK, Japan Broadcasting Corp filed Critical Nippon Hoso Kyokai NHK
Priority to JP2012035515A priority Critical patent/JP5879150B2/ja
Publication of JP2013171462A publication Critical patent/JP2013171462A/ja
Application granted granted Critical
Publication of JP5879150B2 publication Critical patent/JP5879150B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

【課題】ソーシャルストリーム等のテキストからよりキーフレーズを自動的に検出することのできるフレーズ検出装置を提供する。
【解決手段】分割部は、テキストデータを言語要素の単位に分割する。分析部は、前記テキストデータに含まれる言語要素列を抽出し、前記言語要素列の間の包含関係によるリンク情報を生成するとともに、前記言語要素列の統計的独立性を表す統計値を算出する。抽出部は、分析部によって抽出された前記言語要素列における言語要素の連鎖数と、前記分析部によって算出された前記言語要素列の前記統計値と、前記言語要素列に関する前記リンク情報が、所定の条件を満たすような言語要素列を抽出して出力する。
【選択図】図1

Description

本発明は、与えられた文からキーフレーズ等を検出するフレーズ検出装置およびそのプログラムに関する。
SNS(ソーシャル・ネットワーク・システム)等における発言を蓄積して分析することにより、商品やサービスや放送番組等に関する評判の情報を獲得することができる。キーとなる言い回し(本明細書では、以下、キーフレーズと呼ぶ)を見つけることは、評判の情報を分析する場合に重要であり、その自動検出技術に対するニーズは高い。従来は、基本的に、蓄積された発言をひとつひとつ人間が読みながら、キーフレーズを見つける作業が行なわれていた。自動処理技術を導入するにしても、高頻度で出現する単語(本明細書では、以下、キーワードと呼ぶ)をまず検出し、全文検索によりそれらを含む発言に絞り込むところまでを自動で処理し、その結果の中から、キーフレーズを人手で抜き出す作業が行われてきた。
また、テキストから所定のフレーズを検出する技術として、特許文献1には、論文等のテキスト間で類似度を計算することにより、文の引用の有無を判定するための引用判定支援装置の構成が記載されている。
特開2009−205674号公報
しかしながら、上述した従来技術による方法を用いる場合、人間の手作業の労力は多大であった。
また、頻出単語を手がかりとするために検索技術を用いる場合にも、1〜2語程度の単語表現をキーとして用いるしかなく、そのような表現は文中におけるより長い言い回しの一部にすぎない。そのため、頻出単語を手がかりとして用いた場合にも、必ずしも意味が正確に掴めないという問題があった。さらに、同一の単語に異なる単語が組み合わされている場合、同一の言い回しとしてまとめるべきか、別の言い回しとして区別するべきかを考えなければならなかった。
本発明は、上記の課題認識に基づいて行なわれたものであり、単語の出現頻度や2〜3語程度の短い表現の出現頻度によらず、テキストからより長いキーフレーズ(表現)を検出することのできるフレーズ検出装置およびそのプログラムを提供するものである。
[1]上記の課題を解決するため、本発明の一態様によるフレーズ検出装置は、テキストデータを言語要素の単位に分割する分割部と、前記テキストデータに含まれる言語要素列を抽出し、前記言語要素列の間の包含関係によるリンク情報を生成するとともに、前記言語要素列の統計的独立性を表す統計値を算出する分析部と、前記分析部によって抽出された前記言語要素列における言語要素の連鎖数と、前記分析部によって算出された前記言語要素列の前記統計値と、前記言語要素列に関する前記リンク情報が、所定の条件を満たすような言語要素列を抽出して出力する抽出部と、を具備することを特徴とする。
ここで、言語要素とは、例えば、単語や、文字など、自然言語における所定の単位の表現である。そして、この構成によれば、抽出部は、言語要素列における言語要素の連鎖数と言語要素列の統計値との組合せにより、また、言語要素列に関するリンク情報により、キーフレーズを自動的に抽出する。
[2]また、本発明の一態様は、上記のフレーム検出装置において、前記抽出部は、ある連鎖数に対して前記統計値が所定の第1閾値以上であるような、前記連鎖数と前記統計値との組合せを有するキーフレーズ領域に属する前記言語要素列を、抽出して出力する、ものである。
この構成によれば、抽出部は、連鎖数と統計値との組合せが、所定のキーフレーズ領域に属する言語要素列を、抽出する。
[3]また、本発明の一態様は、上記のフレーム検出装置において、前記抽出部は、前記連鎖数に対して前記統計値が所定の第2閾値以上であるような、前記連鎖数と前記統計値との組合せを有する異常値領域に属する前記言語要素列を、除外して抽出する、ものである。
この構成によれば、抽出部は、連鎖数と統計値との組合せが、所定の異常値領域に属する言語要素列を、除外する。
[4]また、本発明の一態様は、上記のフレーム検出装置において、前記抽出部は、前記リンク情報に基づき、
(a)当該言語要素列を包含し、且つ当該言語要素列よりも連鎖数の大きい他の言語要素列が存在しない、または、
(b)当該言語要素列を包含し且つ当該言語要素列よりも連鎖数の大きい他の言語要素列についての前記連鎖数および前記統計値の組合せが、いずれの前記他の言語要素列に関しても、前記キーフレーズ領域に属しない、
のいずれかの条件を満たす場合に限り、当該言語要素列を抽出して出力する、ものである。
この構成によれば、抽出部が包含/被包含の関係にある言語要素列(例えば、一方の単語列が他方の単語列を丸々包含する場合)を重複して抽出することを防ぐ。
[5]また、本発明の一態様は、上記のフレーム検出装置において、前記テキストデータは、発言単位ごとに識別されるものであり、前記分析部は、前記言語要素列を抽出する際に、前記言語要素列を含む前記発言単位の識別情報のリストを生成するものであり、前記抽出部は、前記リンク情報に基づき、前記(a)または前記(b)に加えて、
(c)当該言語要素列を包含し且つ当該言語要素列の連鎖数よりも連鎖数が1だけ大きい言語要素列のそれぞれ対応する前記発言単位の識別情報のリストのうち、要素数が最多の前記リストには含まれない前記識別情報が、他の前記リストに含まれている、という条件を満たす場合にも当該言語要素列を抽出して出力するものである。
ここで、親の(直接の親の)各言語要素列の発言単位識別情報リストのうち、要素数が最大のものに、他の言語要素列に属する発言単位識別情報すべてが包含されることは、異なる発言単位の流入がないことを意味する。逆に、この包含関係が成立しないということ(即ち、上記(c)の条件を満たす場合)は、ある親の言語要素列のうちのある言語要素列に属する発言単位識別情報が、要素数が最大であるリストに含まれない(つまり、異なるツイートの流入がある)ことを意味する。
この構成によれば、抽出部が包含/被包含の関係にある言語要素列を過度に除外することを防ぐ。
[6]また、本発明の一態様は、コンピューターを、テキストデータを言語要素の単位に分割する分割部と、前記テキストデータに含まれる言語要素列を抽出し、前記言語要素列の間の包含関係によるリンク情報を生成するとともに、前記言語要素列の統計的独立性を表す統計値を算出する分析部と、前記分析部によって抽出された前記言語要素列における言語要素の連鎖数と、前記分析部によって算出された前記言語要素列の前記統計値と、前記言語要素列に関する前記リンク情報が、所定の条件を満たすような言語要素列を抽出して出力する抽出部と、を具備するフレーズ検出装置として機能させるプログラムである。
本発明によれば、単語や、2〜3語の単語連鎖ではなく、より長いフレーズの単位で、キーフレーズ(多数出現する表現を長い単位で取り出したもの。多くの人が関心を寄せ、言及しているもの)を自動的に検出できる。
また、ユーザーは、本発明のフレーズ検出装置によって検出されたフレーズのみを見て、意味を理解することができる。つまり、ソーシャルストリーム等において独立性の高いテキストを容易に把握することができる。
本発明の一実施形態によるフレーズ検出装置の機能構成を示すブロック図である。 同実施形態によるツイート記憶部が記憶する発言データの構成を示す概略図である。 同実施形態によるグラフ記憶部が記憶する、n−gramのグラフデータの構成要素を示す概略図である。 同実施形態によるグラフ記憶部が記憶する、n−gramのグラフの一例である。 同実施形態によるn−gramのグラフを、連鎖数の軸とχ値の軸からなる直交座標系にマッピングして表した概略図である。当該座標平面が、異常値領域とキーフレーズ領域とその他の領域とに分割されている。 同実施形態により、連鎖数の軸とχ値の軸からなる直交座標系を表した概略図である。当該座標平面を、図5とは別の方法で異常値領域とキーフレーズ領域とその他の領域とに分割した例を示す。 同実施形態によるフレーズ検出装置がツイートのデータを分析してn−gramのグラフデータに展開する処理の手順を示すフローチャートである。 同実施形態によるフレーズ検出装置がグラフ記憶部に展開されているn−gramのグラフデータを元にキーフレーズノードを抽出する処理の手順を示すフローチャートである。
次に、本発明の一実施形態について、図面を参照しながら説明する。
図1は、本実施形態によるフレーズ検出装置の機能構成を示すブロック図である。図示するように、フレーズ検出装置1は、読込部11と、ツイート記憶部12と、分割部13と、グラフ生成部14(分析部)と、グラフ記憶部15と、ノード抽出部16(抽出部)とを含んで構成される。これら各部は、電子回路等を用いて実現される。また、ツイート記憶部12とグラフ記憶部15とは、磁気ハードディスク装置や半導体メモリ装置を用いて実現される。
読込部11は、テキストデータを読み込み、ツイート記憶部12に記憶させる。ここでは、このテキストデータは、ソーシャル・ネットワーク・システムにおける発言のテキストであり、発言単位で識別されるものである。テキストデータの一例は、ツイッター(Twitter)におけるツイート(tweet,発言単位)のテキストである。ツイートは、ユーザーによる発言の一単位である。ツイートの長さに関して本来的には制約はないが、システムによっては1ツイートの長さ(文字数)が制限されている場合もある。
なお、ソーシャル・ネットワーク・システムの典型例においては、そのユーザーが、ツイート単位でテキスト情報を発信する。ユーザーは、他のユーザーから発信されるツイートであって、所定の関係にあるツイートのみを、ソーシャルストリーム上で閲覧する。ここで、所定の関係とは、例えば、フォロー/被フォロー、フレンド(友達)、共通のクラスター(興味、話題、リスト等)への所属等である。
ツイート記憶部12は、読込部11によって読み込まれたテキストデータを、発言単位で記憶する。ツイート記憶部12が記憶するデータの構成については、後述する。
分割部13は、読込部11によって読み込まれたテキストデータ(文)を、単語(言語要素)の単位に分割する。
グラフ生成部14は、分割部13によって分割された結果に基づき、テキストデータに含まれる単語のn−gram(エヌグラム、言語要素列)を抽出し、複数の単語n−gramの間の包含関係(ある単語列が、別の単語列に包含されるか否か)によるリンク情報を生成するとともに、各々の単語n−gramの統計的独立性を表すχ値(統計値)を算出する。また、グラフ生成部14は、n−gramを抽出する際に、そのn−gramを含む前記発言単位の識別情報(ツイートID)のリストを生成する。なお、グラフ生成部14がリンク情報を生成する際、単語の連鎖数(単語数)の差が1である(つまり1段階差の)n−gram間のリンク情報のみを直接生成する。それらのリンク情報を順にたどることにより、単語の連鎖数の差が2以上である(つまり多段階差の)n−gramのリンクも把握できる。ある単語n−gramをノードと捉えたとき、グラフ生成部14が生成するリンク情報によって、グラフ構造のデータが形成される。ここではこれを便宜上、グラフデータと呼ぶ。グラフ生成部14は、グラフデータをグラフ記憶部15に書き込む。
グラフ記憶部15は、グラフ生成部14によって生成されたグラフデータを記憶する。グラフ記憶部15が記憶するデータの詳細な構成については、後述する。
ノード抽出部16は、グラフ生成部14によって抽出された単語n−gramの連鎖数と、グラフ生成部14によって算出された単語n−gramのχ値と、単語n−gramに関するリンク情報が、所定の条件を満たすようなノード(n−gram)を抽出して出力する。
具体的には、ノード抽出部16は、ある連鎖数に対してχ値が所定の第1閾値以上であるような、連鎖数とχ値との組合せを有するキーフレーズ領域に属するn−gramを、抽出して出力する。これにより、ノード抽出部16は、有意に出現頻度の高い(独立性が低いと検定される)フレーズを検出して出力できる。但し、ノード抽出部16は、連鎖数に対してχ値が所定の第2閾値以上であるような、連鎖数とχ値との組合せを有する異常値領域に属するn−gramを、除外して抽出する。これにより、出現頻度の高すぎるフレーズを検出しないように除外することができる。そのような異常値領域に属するフレーズは、他のツイートからコピー・アンド・ペースト(いわゆる「コピペ」)されたものである可能性が高いからである。
図2は、ツイート記憶部12が記憶するデータの構成を示す概略図である。図示するように、ツイート記憶部12は、表形式のデータを記憶するものである。ツイート記憶部12は、ツイートを識別するためのツイートIDに関連付けて、発言者およびツイート内容を記憶する。図示する例では、ツイート記憶部12は、ツイートID「12345678」に関連付けて、発言者「abc_2011」およびツイート内容「今日はいい天気です」というデータを記憶している。
図3は、グラフ記憶部15が記憶するデータの構成要素を示す概略図である。グラフ記憶部15は、ノードと有向リンク(リンク情報)で構成されるグラフのデータを記憶する。ここで、各ノードは、単語のn−gramに対応する。また、各有向リンクは、ノード間におけるn−gramの包含関係を表すものであり、具体的には例えばリンク先のノードを指し示すポインタ情報等で実現される。
図示するように、ノードは、連鎖数と、文字列と、χ(カイ2乗)値と、ツイートIDリスト(発言単位の識別情報のリスト)へのリンク情報とを格納する。図示する例では、連鎖数は、当該n−gramにおける単語の連鎖数である。本例では、連鎖数は4である。また、文字列は、当該n−gramが表す文字列である。この文字列内においては、単語の区切りをハイフン「−」で表している。つまり「今日−は−いい−天気」という文字列は、「今日」、「は」、「いい」、「天気」という4つの単語の連鎖で構成されている。χ値は、当該n−gramの統計的性質を表す数値であり、その詳細については後述する。また、ツイートIDリストへのリンク情報は、当該n−gramが表す文字列「今日はいい天気」を含むツイートのツイートIDリストの所在を示す情報である。図示する例では、「12345678」、「23456789」、「44554545」、「67896789」、「77896789」の5個のIDが、該当するツイートIDである。ツイートIDリストは、同一のIDを複数含むことがないように、ユニークリストとして実装される。
子n−gramへのリンクは、当該n−gramの文字列を含む、一段階下位の子のn−gramへのリンク情報である。ここで、直接リンクされている下位のn−gramは、文字列「今日−は−いい」(単語の連鎖数3)を表すn−gramと、文字列「は−いい−天気」(単語の連鎖数3)を表すn−gramの2つである。例えば、文字列「今日−は」(単語の連鎖数2)や「いい−天気」(単語の連鎖数2)や「天気」(単語の連鎖数1)なども、文字列[今日−は−いい−天気]に含まれるが、これらの文字列のn−gramへも、複数段階のリンクを経て到達可能である。逆に、親n−gramからのリンクは、文字列「今日−は−いい−天気」を含む、連鎖数が5のn−gramに対応するノードからのリンクである。
図4は、グラフ記憶部15が記憶するn−gramのグラフの一例である。図示するデータ例には、n−gramに相当する15個のノードと、ノード間の親子関係を表す20本の有向リンクが含まれている。このグラフの元となる例文は「今日はいい天気です」というツイートである。同図の最も右側には、連鎖数5の5−gramのノードが存在し、その文字列は「今日−は−いい−天気−です」である。その子ノードとして2つのノードが存在し、それらの連鎖数はいずれも4であり、文字列はそれぞれ「今日−は−いい−天気」および「は−いい−天気−です」である。以下、同様に、3個の3−gram(トライグラム)のノード、4個の2−gram(バイグラム)のノード、5個の1−gram(ユニグラム)のノードが存在し、親子関係があるノード間が有向リンクで結ばれている。
図5は、前述のグラフ記憶部15が記憶するn−gramのグラフを、連鎖数の軸とχ値の軸からなる直交座標系にマッピングして表したものである。同図において、横軸は連鎖数であり、縦軸はχ値である。また、この座標平面における第1象限は、異常値領域(コピー・アンド・ペースト領域とも呼ぶ)と、キーフレーズ領域と、その他の領域とに分割されている。同図において、境界線42は、異常値領域とキーフレーズ領域を分割する。また、境界線41は、キーフレーズ領域とその他の領域とを分割する。ここで示す例では、異常値領域は、連鎖数nがn以上で且つχ値がk(第2閾値)以上の領域である。また、キーフレーズ領域は、連鎖数nがn以上で且つχ値がk(第1閾値)以上の領域(慣用句らしい表現が含まれる領域)であって尚且つ異常値領域ではない領域である。言い換えれば、キーフレーズ領域は、(連鎖数nがn以上且つn以下)または((χ値がk以上且つk以下)、であるような領域である。つまり、境界線41は、n>nの領域において第1閾値を示す。また、境界線42は、n>nの領域において第2閾値を示す。なお、この座標軸上において、本来は各n−gramのノードは面積を持たないが、ここでは便宜的に楕円形でノードを表している。
図5内では、n−gramの複数のノードを模式的に示している。これらのノードのうち、斜線でハッチングしたノード51、52および53は、キーフレーズとして抽出されるノードである。また、その他のノードは、キーフレーズには該当しないノードである。キーフレーズとして抽出されるノードは、キーフレーズ領域に属し、且つ後述する所定の条件を満たすノードである。
なお、パラメーターの一例は、次の通りである。図5において、n=5とし、n=10とする。また、σを標準偏差としたとき、kを2σに相当するχ値とし、kを4σに相当するχ値とする。
図6は、図5と同様に連鎖数の軸とχ値の軸からなる直交座標平面を示すものであり、異常値領域とキーフレーズ領域とその他の領域とを分割する境界線が図5のそれらと異なる例である。図6において、境界線44は、異常値領域とキーフレーズ領域を分割する。また、境界線43は、キーフレーズ領域とその他の領域とを分割する。ここで示す例では、異常値領域は、連鎖数nがn以上で、且つχ値が関数f(n)の値以上の領域である。つまり、関数f(n)は第2閾値を与える。また、キーフレーズ領域は、連鎖数nがn以上で、且つχ値が関数f(n)の値以上の領域であって尚且つ異常値領域ではない領域である。つまり、関数f(n)は第1閾値を与える。ここで、関数f(n)は、n≧nの領域で定義される単調減少関数である。また、関数f(n)は、n≧nの領域で定義される単調減少関数である。一例として、f(n)=α/n (但し、n≧n), f(n)=α/n (但し、n≧n)という関数を用いることができる。なお、αおよびαは、それぞれ適宜定められる定数である。
図5および図6のそれぞれにおける異常値領域およびキーフレーズ領域の設定は、次の(1)および(2)の条件を満足させる。即ち、(1)連鎖数n=nにおいてχ値がaである位置が異常値領域であるならば、n≧nであって且つχ値がaである位置もまた異常値領域である。また、連鎖数n=nにおいてχ値がaである位置が異常値領域であるならば、n=nであって且つχ値がa以上である位置もまた異常値領域である。(2)連鎖数n=nにおいてχ値がaである位置がキーフレーズ領域あるいは異常値領域のいずれかであるならば、n≧nであって且つχ値がaである位置もまたキーフレーズ領域あるいは異常値領域のいずれかである。また、連鎖数n=nにおいてχ値がaである位置がキーフレーズ領域あるいは異常値領域のいずれかであるならば、n=nであって且つχ値がa以上である位置もまたキーフレーズ領域あるいは異常値領域のいずれかである。ここで述べたように、フレーズ検出装置1は、異常値領域およびキーフレーズ領域を設定する。
なお、異常値領域に属するn−gramノードは、異常に高頻度なn−gramを表す。このような高頻度なn−gramは、あるツイートがコピー・アンド・ペーストされて別のツイートとして発信される場合に生じる。SNS等においては、しばしば、所定時間内にこのような高頻度なn−gramが発生する。フレーズ検出装置1は、異常値領域に属するn−gramを、コピー・アンド・ペーストによるツイートとして検出することができる。また、キーフレーズ領域に属するn−gramノードは、異常とは言えないまでも、有意に高い頻度で出現するn−gramを表している。フレーズ検出装置1は、キーフレーズ領域に属するn−gramを、SNS等における高頻度なキーフレーズとして検出する。
図7は、フレーズ検出装置1がツイートのデータを読み込んでn−gramのグラフ構造への展開を行い、グラフデータをグラフ記憶部15に書き込むまでの処理の手順を示すフローチャートである。以下、このフローチャートに沿って説明する。
まずステップS1において、読込部11が、ツイートのデータを外部から読み込むとともに、読み込んだツイートをツイート記憶部12に登録する。
次にステップS2において、分割部13が、ツイート記憶部12に登録されている各ツイートの文を形態素解析する。形態素解析の処理自体は、既存の技術を用いて行なうことができる。形態素解析の結果、各文は、単語(形態素)の列に分解される。例えば、分割部13は、文「今日はいい天気です」を、「今日−は−いい−天気−です」という単語列(連鎖数は、5)に分解する。
次にステップS3において、グラフ生成部14は、分割部13によって形態素解析された後の各ツイートを、n−gramのグラフ構造に展開する処理を行う。グラフ構造への展開の処理は次の通りである。まず、グラフ生成部14は、単語の列に分解されているツイートを取り出し、そのツイート全体に相当する連鎖数のn−gramノードを生成し、グラフ記憶部15に書き込む。例えば、「今日−は−いい−天気−です」という単語列の連鎖数は5であるので、グラフ生成部14は、まずこれに対応する5−gramのノードを生成する。そして、次に、グラフ生成部14は、その部分単語列である2種類の4−gramのノードを生成する。即ち、それらは、「今日−は−いい−天気」と「は−いい−天気−です」の2つである。さらに、3−gram、2−gram、1−gramの順に、部分単語列のノードを生成していく(図4も参照)。このとき、展開するノードのツイートIDリストには、当該ツイートのIDを書き込む(図3も参照)。
さらに、グラフ生成部14は、次のツイートについても同様の処理を行い、これを繰り返すことにより、ツイート記憶部12に登録されているすべてのツイートについて、n−gramのグラフ構造への展開を行なう。なお、グラフ生成部14がグラフ構造への展開を行なう際に、既に処理したツイートと重複するn−gramを展開する場合には、新たなノードを生成するのではなく、当該n−gram用の既存のノードを利用する。つまり、グラフ生成部14は、既存のノードのツイートIDリストにツイートのIDを追記する。
次にステップS4において、グラフ生成部14は、グラフ記憶部15に展開されたグラフの各ノードのχ値を算出する。なお、χ値を算出するために、入力データにおける各n−gramの出現回数を用いるが、この出現回数は、グラフ生成時に予めカウントしておいても良いし、χ値の計算の時点でカウントするようにしても良い。連鎖数Nのn−gram「A−A−・・・・・・−A」(ここで、A,A,・・・,Aの各々は単語)のχ値を算出する方法は、次の通りである。
このn−gramの出現確率p(A−A−・・・・・・−A)は、下の式(1)によって算出される。
Figure 2013171462
ここで、Mは、対象データに含まれる連鎖数Nのn−gram全体の集合である。また、uは、集合Mに属するn−gramである。また、d(u)は、対象データ全体におけるuの出現回数である。また、d(A−A−・・・・・・−A)は、対象データ全体におけるn−gram「A−A−・・・・・・−A」の出現回数である。
また、単語A(1≦i≦N)は、各々が1−gramであり、これら各々の1−gramの出現確率は、下の式(2)によって算出される。
Figure 2013171462
ここで、Mは、対象データに含まれる全ての1−gramの集合である。また、uは、集合Mに属するn−gram(つまり、1−gram)である。また、d(u)は、対象データ全体におけるuの出現回数である。また、d(A)は、対象データ全体における単語(1−gram)Aの出現回数である。つまり、式(2)で計算される値は、単語Aの出現確率を表す。
そして、式(1)および式(2)で算出された値を用いて、n−gram「A−A−・・・・・・−A」のχ値は、下の式(3)によって算出される。
Figure 2013171462
そして、グラフ生成部14は、計算されたχ値を、グラフ記憶部15内の各ノードに書き込む。このようにして、グラフ生成部14によってn−gramのグラフのデータが生成される。つまり、独立性検定に用いるχ値を算出できる。χ値は、n−gram確率と、そのn−gramをn個の1−gramに分解したときの1−gram(単語)確率とから算出される。これは、連続するn単語が、1単語ずつばらばらに出現する時に比べて有意に大きいかどうか検定するために用いられる値である。つまり、式(3)で計算されるχ値は、そのn−gramに含まれる個々の単語の出現頻度を考慮に入れながら、n−gramそのものの出現頻度を測る指標となり得る値である。
図8は、フレーズ検出装置1がグラフ記憶部15のデータを元にキーフレーズノードを抽出する処理の手順を示すフローチャートである。以下、このフローチャートに沿って説明する。
まずステップS11において、ノード抽出部16は、グラフ記憶部15に記憶されているノードのうち、キーフレーズ領域に含まれるノードであって、且つ未処理のノードがまだ残っているか否かを判定する。キーフレーズ領域に含まれるか否かは、図5および図6にも示したように、ノードの連鎖数およびχ値の組合せにより判定できる。未処理のノードがキーフレーズ領域に残っている場合(ステップS11:YES)には次のステップS12に進み、残っていない場合(ステップS11:NO)にはこのフローチャート全体の処理を終了する。
ステップS12からS16においては、未処理で、且つキーフレーズ領域に残っている、ひとつのノードを処理対象とする。ステップS12において、ノード抽出部16は、処理対象のノードが親を持つか否かを判断する。ここで、あるノードが親を持つということは、そのノードに流入する他のノードからのリンクが存在するということである。言い換えれば、あるノードが親を持つということは、そのノードのn−gramに対応する文字列を包含する、連鎖数が1つ多いn−gramの文字列が、読み込んだ入力データに含まれていたということである。親を持つ場合(ステップS12:YES)には、次の条件を判定するためにステップS13に進む。親を持たない場合(ステップS12:NO)には、当該ノードはキーフレーズに対応するものであり、ステップS16に進む。
ステップS13に進んだ場合には、ノード抽出部16は、処理対象のノードが、キーフレーズ領域または異常値領域に先祖を持つか否かを判定する。先祖とは、処理対象のノードのn−gramを包含する、より連鎖数の多いn−gramに対応するノードである。言い換えれば、本ステップでは、ノード抽出部16は、処理対象のノードが、キーフレーズ領域または異常値領域に存在するn−gramの部分列に相当するか否かを判定する。先祖を持つ場合(ステップS13:YES)には、次の条件を判定するためにステップS14に進む。先祖を持たない場合(ステップS13:NO)には、当該ノードはキーフレーズに対応するものであり、ステップS16に進む。
ステップS14に進んだ場合には、ノード抽出部16は、処理対象のノードに関してツイートの流入があるか否かを判定する。ステップS12において処理対象のノードは親ノードを有することを既に判定済みであるので、一般に、処理対象のノードは、単数または複数の親ノード(直接の親)を有する。ここで、異なるツイートの流入があるか否かは、次に述べる条件で判定可能である。即ち、各々の親ノードが有するツイートリストのうち、要素数が最多であるリストを、要素数最多リストと呼ぶ。要素数最多のリストが複数ある場合には、それらのうちの任意の一つを要素数最多リストとする。そして、要素数最多リストの要素数と、処理対象のノードの要素数が同じである場合には、異なるツイートの流入はないと言える。逆に、要素数最多リストの要素数が、処理対象のノードの要素数よりも少ない場合には、異なるツイートの流入があると言える。なお、この判定基準によれば、そもそも親が1ノードしかない場合には、異なるツイートの流入はない。異なる(新たな)ツイートの流入がある場合(ステップS14:YES)には、当該ノードはキーフレーズに対応するものであり、ステップS16に進む。異なるツイートの流入がない場合(ステップS14:NO)には、ステップS15に進む。
なお、ステップS14の処理において、異なるツイートの判定条件を要素数の比較で処理できたのは、図3に示したデータにおいて、ツイートIDのユニークリストを保持するようにしたためである。このデータ構造は、処理の効率化のためであり、本特許の基本となる考えは、集合の包含関係の判定である。
ステップS15に進んだ場合には、処理対象のノードはキーフレーズに該当するものではないと、ノード抽出部16は認識する。そして、ステップS11の処理に戻る。
ステップS16に進んだ場合には、ノード抽出部16は、処理対象のノードをキーフレーズに該当するものとして検出する。そして、ステップS11の処理に戻る。
以上の処理をまとめると、ノード抽出部16がキーフレーズとして抽出するのは、キーフレーズ領域に存在して、且つ、次の(a)〜(c)のいずれかの条件を満たす単語列である。(a)親を持たない(つまり、そのn−gramを包含する、より連鎖数の多いn−gramがグラフ内に存在しない)。(b)親が存在するにしても、先祖のいずれもが、キーフレーズ領域または異常値領域のいずれにも属さない。(c)異なるツイートからの流入がある(つまり、要素数最多リストに含まれないツイートIDが、いずれかの親のツイートリストに含まれる)。ノード抽出部16は、上記の処理によって抽出されたノードを、キーフレーズとして、またはキーフレーズ候補として、外部に出力する。
これを言い換えれば、次の通りである。ノード抽出部16は、ノード間のリンク情報に基づき、
(a)当該n−gramを包含し、且つ当該n−gramよりも連鎖数の大きい他のn−gramが存在しない、または、
(b)当該n−gramを包含し且つ当該n−gramよりも連鎖数の大きい他のn−gramについての連鎖数およびχ値の組合せが、いずれの前記の「他のn−gram」に関しても、キーフレーズ領域に属しない、
のいずれかの条件を満たす場合に限り、そのn−gramを抽出して出力する、これにより、包含関係にある単語列を重複して抽出してしまうことを防ぐことができる。
また、ノード抽出部16は、ノード間のリンク情報に基づき、前記(a)または前記(b)に加えて、(c)当該n−gramを包含し且つ当該n−gramの連鎖数よりも連鎖数が1だけ大きいn−gramのそれぞれ対応するツイートIDリストのうち、要素数が最多のツイートIDリストには含まれないツイートIDが、他のツイートIDリストに含まれている、という条件を満たす場合にも当該n−gramを抽出して出力する。この(c)の条件は、当該n−gramに、異なるツイートからの流入があることを判定するための条件である。(c)の条件を用いることにより、包含関係にある単語列(n−gram)を除外しすぎてしまうことを防ぐことができる。
なお、上述した実施形態におけるフレーズ検出装置の各部の機能をコンピューターで実現するようにしても良い。その場合、この制御機能を実現するためのプログラムをコンピューター読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピューターシステムに読み込ませ、実行することによって実現しても良い。なお、ここでいう「コンピューターシステム」とは、OSや周辺機器等のハードウェアを含むものとする。また、「コンピューター読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD−ROM等の可搬媒体、コンピューターシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピューター読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバーやクライアントとなるコンピューターシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含んでも良い。また上記プログラムは、前述した機能の一部を実現するためのものであっても良く、さらに前述した機能をコンピューターシステムにすでに記録されているプログラムとの組み合わせで実現できるものであっても良い。
本実施形態によるフレーズ検出装置を用いることにより、テレビ番組を見ながら(ツイッターなどの)ソーシャルストリームを利用して情報発信をする人たちの声を分析したい時に役立つ。特に、コピー・アンド・ペーストというオリジナリティーの少ない情報を除外しながら、多数出現する発言を検出したい時に役立つ。
以上、一実施形態を説明したが、本発明はさらに次のような変形例でも実施することが可能である。なお、下で説明する複数の変形例の構成を組み合わせても良い。
(変形例1)この変形例では、ノード抽出部16が常套句リストを予め記憶しておく。この常套句リストは、慣用句を予め列挙することによって構成されたデータである。そして、ノード抽出部16は、図8に示した手順によってキーフレーズとして検出された単語列のうち、この常套句リストに含まれる表現を除外して、キーフレーズを出力する。これにより、常套的な慣用句がキーフレーズとして検出されるのを防ぐことができる。
(変形例2)この変形例では、ノード抽出部16は、異常値領域に属するノードをも抽出し、出力する。また、異常値領域に属するノードの各々に対して、図8に示したステップS12からS14までの判定を行なって、重複する単語列を除外するようにしても良い。この変形例では、フレーズ検出装置1は、ソーシャルストリーム等においてコピー・アンド・ペーストされたフレーズを検出することもできる。
(変形例3)この変形例では、分割部13は、読込部11によって読み込まれたツイートを、単語単位ではなく文字(言語要素)単位に分割する。文字単位に分割する場合には、分割部13は、形態素解析の処理を行なう必要がない。そして、グラフ生成部14は、単語のn−gramではなく文字のn−gramによって、グラフのデータを展開する。そして、ノード抽出部16は、文字のn−gramを用いてキーワードフレーズを抽出し、出力する。
(変形例4)この変形例では、実装するメモリ量等に応じて、取り扱うn−gramの連鎖数に上限を設ける。例えば、連鎖数の上限値を30としたとき、グラフ生成部14は、この上限値を超える連鎖数のn−gramのノードを生成しない。
(変形例5)この変形例では、ノード抽出部16は、検出されたキーフレーズとともに、そのキーフレーズを含むツイートIDのリストを出力する。また、さらに、ノード抽出部16が、それらのツイートIDの各々に対応するURL(ユニフォーム・リソース・ロケーター)を出力するようにしても良い。
以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。
本発明は、テキスト処理に利用可能である。特に、ウェブページや、ブログ(web log)や、SNSサイトなどに投稿されるテキストを効率よく自動解析するために利用可能である。
1 フレーズ検出装置
11 読込部
12 ツイート記憶部
13 分割部
14 グラフ生成部(分析部)
15 グラフ記憶部
16 ノード抽出部(抽出部)

Claims (6)

  1. テキストデータを言語要素の単位に分割する分割部と、
    前記テキストデータに含まれる言語要素列を抽出し、前記言語要素列の間の包含関係によるリンク情報を生成するとともに、前記言語要素列の統計的独立性を表す統計値を算出する分析部と、
    前記分析部によって抽出された前記言語要素列における言語要素の連鎖数と、前記分析部によって算出された前記言語要素列の前記統計値と、前記言語要素列に関する前記リンク情報が、所定の条件を満たすような言語要素列を抽出して出力する抽出部と、
    を具備することを特徴とするフレーズ検出装置。
  2. 前記抽出部は、ある連鎖数に対して前記統計値が所定の第1閾値以上であるような、前記連鎖数と前記統計値との組合せを有するキーフレーズ領域に属する前記言語要素列を、抽出して出力する、ことを特徴とする請求項1に記載のフレーズ検出装置。
  3. 前記抽出部は、前記連鎖数に対して前記統計値が所定の第2閾値以上であるような、前記連鎖数と前記統計値との組合せを有する異常値領域に属する前記言語要素列を、除外して抽出する、ことを特徴とする請求項2に記載のフレーズ検出装置。
  4. 前記抽出部は、前記リンク情報に基づき、
    (a)当該言語要素列を包含し、且つ当該言語要素列よりも連鎖数の大きい他の言語要素列が存在しない、または、
    (b)当該言語要素列を包含し且つ当該言語要素列よりも連鎖数の大きい他の言語要素列についての前記連鎖数および前記統計値の組合せが、いずれの前記他の言語要素列に関しても、前記キーフレーズ領域に属しない、
    のいずれかの条件を満たす場合に限り、当該言語要素列を抽出して出力する、
    ことを特徴とする請求項2または3のいずれか一項に記載のフレーズ検出装置。
  5. 前記テキストデータは、発言単位ごとに識別されるものであり、
    前記分析部は、前記言語要素列を抽出する際に、前記言語要素列を含む前記発言単位の識別情報のリストを生成するものであり、
    前記抽出部は、前記リンク情報に基づき、前記(a)または前記(b)に加えて、
    (c)当該言語要素列を包含し且つ当該言語要素列の連鎖数よりも連鎖数が1だけ大きい言語要素列のそれぞれ対応する前記発言単位の識別情報のリストのうち、要素数が最多の前記リストには含まれない前記識別情報が、他の前記リストに含まれている、という条件を満たす場合にも当該言語要素列を抽出して出力する、
    ことを特徴とする請求項4に記載のフレーズ検出装置。
  6. コンピューターを、
    テキストデータを言語要素の単位に分割する分割部と、
    前記テキストデータに含まれる言語要素列を抽出し、前記言語要素列の間の包含関係によるリンク情報を生成するとともに、前記言語要素列の統計的独立性を表す統計値を算出する分析部と、
    前記分析部によって抽出された前記言語要素列における言語要素の連鎖数と、前記分析部によって算出された前記言語要素列の前記統計値と、前記言語要素列に関する前記リンク情報が、所定の条件を満たすような言語要素列を抽出して出力する抽出部と、
    を具備するフレーズ検出装置として機能させるプログラム。
JP2012035515A 2012-02-21 2012-02-21 フレーズ検出装置およびそのプログラム Active JP5879150B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2012035515A JP5879150B2 (ja) 2012-02-21 2012-02-21 フレーズ検出装置およびそのプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012035515A JP5879150B2 (ja) 2012-02-21 2012-02-21 フレーズ検出装置およびそのプログラム

Publications (2)

Publication Number Publication Date
JP2013171462A true JP2013171462A (ja) 2013-09-02
JP5879150B2 JP5879150B2 (ja) 2016-03-08

Family

ID=49265342

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012035515A Active JP5879150B2 (ja) 2012-02-21 2012-02-21 フレーズ検出装置およびそのプログラム

Country Status (1)

Country Link
JP (1) JP5879150B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015149216A1 (en) * 2014-03-31 2015-10-08 Intel Corporation Location aware power management scheme for always-on- always-listen voice recognition system

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009064187A (ja) * 2007-09-05 2009-03-26 Sony Corp 情報処理装置、情報処理方法、およびプログラム
JP2013517563A (ja) * 2010-01-15 2013-05-16 コンパス ラボズ,インク. ユーザ通信の解析システムおよび方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009064187A (ja) * 2007-09-05 2009-03-26 Sony Corp 情報処理装置、情報処理方法、およびプログラム
JP2013517563A (ja) * 2010-01-15 2013-05-16 コンパス ラボズ,インク. ユーザ通信の解析システムおよび方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
JPN6015039458; 中渡瀬 秀一: '統計的手法によるテキストからの重要語抽出メカニズム' 情報処理学会研究報告 第95巻第87号, 19950914, p.41-48, 社団法人情報処理学会 *
JPN6015039459; 長尾 真 外2名: '日本語文献における重要語の自動抽出' 情報処理 第17巻第2号, 19760215, p.110-117, 社団法人情報処理学会 *
JPN6015039461; 櫻井 茂明 外1名: 'キーフレーズに基づいたテキストの分析' 知能と情報 第17巻第1号, 20050215, p.52-59, 日本知能情報ファジィ学会 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015149216A1 (en) * 2014-03-31 2015-10-08 Intel Corporation Location aware power management scheme for always-on- always-listen voice recognition system
KR20160113255A (ko) * 2014-03-31 2016-09-28 인텔 코포레이션 항상-온-항상-청취 음성 인식 시스템을 위한 위치 인식 전력 관리 스킴
US10133332B2 (en) 2014-03-31 2018-11-20 Intel Corporation Location aware power management scheme for always-on-always-listen voice recognition system
KR102018152B1 (ko) 2014-03-31 2019-09-04 인텔 코포레이션 항상-온-항상-청취 음성 인식 시스템을 위한 위치 인식 전력 관리 스킴

Also Published As

Publication number Publication date
JP5879150B2 (ja) 2016-03-08

Similar Documents

Publication Publication Date Title
US9720901B2 (en) Automated text-evaluation of user generated text
CN109416705B (zh) 利用语料库中可用的信息用于数据解析和预测
US9229924B2 (en) Word detection and domain dictionary recommendation
Aisopos et al. Content vs. context for sentiment analysis: a comparative analysis over microblogs
JP7251181B2 (ja) 対訳処理方法および対訳処理プログラム
Bouazizi et al. Opinion mining in twitter how to make use of sarcasm to enhance sentiment analysis
US20180095946A1 (en) Intelligent system that dynamically improves its knowledge and code-base for natural language understanding
Oudah et al. A pipeline Arabic named entity recognition using a hybrid approach
US10803241B2 (en) System and method for text normalization in noisy channels
JP5534280B2 (ja) テキストクラスタリング装置、テキストクラスタリング方法、およびプログラム
KR20160121382A (ko) 텍스트 마이닝 시스템 및 툴
WO2017177809A1 (zh) 语言文本的分词方法和系统
US20130191718A1 (en) Rule based apparatus for modifying word annotations
US11954173B2 (en) Data processing method, electronic device and computer program product
US8880391B2 (en) Natural language processing apparatus, natural language processing method, natural language processing program, and computer-readable recording medium storing natural language processing program
JP2007241902A (ja) テキストデータの分割システム及びテキストデータの分割及び階層化方法
Venčkauskas et al. Problems of authorship identification of the national language electronic discourse
JP6563350B2 (ja) データ分類装置、データ分類方法、及びプログラム
AU2017356150B2 (en) System and method for detecting geo-locations in social media
JP2019148933A (ja) 要約評価装置、方法、プログラム、及び記憶媒体
KR20230115964A (ko) 지식 그래프 생성 방법 및 장치
JP5879150B2 (ja) フレーズ検出装置およびそのプログラム
JP6600849B2 (ja) 顔文字感情情報抽出システム、方法及びプログラム
CN111492364B (zh) 数据标注方法、装置及存储介质
JP2010257021A (ja) 文章修正装置、文章修正システム、文章修正方法、文章修正プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20150105

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20150925

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20151006

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20151102

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20160105

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20160201

R150 Certificate of patent or registration of utility model

Ref document number: 5879150

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250