JP2013171462A - フレーズ検出装置およびそのプログラム - Google Patents
フレーズ検出装置およびそのプログラム Download PDFInfo
- Publication number
- JP2013171462A JP2013171462A JP2012035515A JP2012035515A JP2013171462A JP 2013171462 A JP2013171462 A JP 2013171462A JP 2012035515 A JP2012035515 A JP 2012035515A JP 2012035515 A JP2012035515 A JP 2012035515A JP 2013171462 A JP2013171462 A JP 2013171462A
- Authority
- JP
- Japan
- Prior art keywords
- language element
- language
- gram
- string
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000605 extraction Methods 0.000 claims abstract description 44
- 238000004458 analytical method Methods 0.000 claims abstract description 24
- 239000000284 extract Substances 0.000 claims abstract description 23
- 230000002159 abnormal effect Effects 0.000 claims description 31
- 238000001514 detection method Methods 0.000 claims description 31
- 230000006870 function Effects 0.000 claims description 16
- 238000000034 method Methods 0.000 description 32
- 238000012545 processing Methods 0.000 description 17
- 238000012986 modification Methods 0.000 description 13
- 230000004048 modification Effects 0.000 description 13
- 230000014509 gene expression Effects 0.000 description 8
- 238000010586 diagram Methods 0.000 description 6
- 230000000877 morphologic effect Effects 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 230000003247 decreasing effect Effects 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
Images
Landscapes
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
Abstract
【解決手段】分割部は、テキストデータを言語要素の単位に分割する。分析部は、前記テキストデータに含まれる言語要素列を抽出し、前記言語要素列の間の包含関係によるリンク情報を生成するとともに、前記言語要素列の統計的独立性を表す統計値を算出する。抽出部は、分析部によって抽出された前記言語要素列における言語要素の連鎖数と、前記分析部によって算出された前記言語要素列の前記統計値と、前記言語要素列に関する前記リンク情報が、所定の条件を満たすような言語要素列を抽出して出力する。
【選択図】図1
Description
また、頻出単語を手がかりとするために検索技術を用いる場合にも、1〜2語程度の単語表現をキーとして用いるしかなく、そのような表現は文中におけるより長い言い回しの一部にすぎない。そのため、頻出単語を手がかりとして用いた場合にも、必ずしも意味が正確に掴めないという問題があった。さらに、同一の単語に異なる単語が組み合わされている場合、同一の言い回しとしてまとめるべきか、別の言い回しとして区別するべきかを考えなければならなかった。
この構成によれば、抽出部は、連鎖数と統計値との組合せが、所定のキーフレーズ領域に属する言語要素列を、抽出する。
この構成によれば、抽出部は、連鎖数と統計値との組合せが、所定の異常値領域に属する言語要素列を、除外する。
(a)当該言語要素列を包含し、且つ当該言語要素列よりも連鎖数の大きい他の言語要素列が存在しない、または、
(b)当該言語要素列を包含し且つ当該言語要素列よりも連鎖数の大きい他の言語要素列についての前記連鎖数および前記統計値の組合せが、いずれの前記他の言語要素列に関しても、前記キーフレーズ領域に属しない、
のいずれかの条件を満たす場合に限り、当該言語要素列を抽出して出力する、ものである。
この構成によれば、抽出部が包含/被包含の関係にある言語要素列(例えば、一方の単語列が他方の単語列を丸々包含する場合)を重複して抽出することを防ぐ。
(c)当該言語要素列を包含し且つ当該言語要素列の連鎖数よりも連鎖数が1だけ大きい言語要素列のそれぞれ対応する前記発言単位の識別情報のリストのうち、要素数が最多の前記リストには含まれない前記識別情報が、他の前記リストに含まれている、という条件を満たす場合にも当該言語要素列を抽出して出力するものである。
この構成によれば、抽出部が包含/被包含の関係にある言語要素列を過度に除外することを防ぐ。
また、ユーザーは、本発明のフレーズ検出装置によって検出されたフレーズのみを見て、意味を理解することができる。つまり、ソーシャルストリーム等において独立性の高いテキストを容易に把握することができる。
図1は、本実施形態によるフレーズ検出装置の機能構成を示すブロック図である。図示するように、フレーズ検出装置1は、読込部11と、ツイート記憶部12と、分割部13と、グラフ生成部14(分析部)と、グラフ記憶部15と、ノード抽出部16(抽出部)とを含んで構成される。これら各部は、電子回路等を用いて実現される。また、ツイート記憶部12とグラフ記憶部15とは、磁気ハードディスク装置や半導体メモリ装置を用いて実現される。
次にステップS2において、分割部13が、ツイート記憶部12に登録されている各ツイートの文を形態素解析する。形態素解析の処理自体は、既存の技術を用いて行なうことができる。形態素解析の結果、各文は、単語(形態素)の列に分解される。例えば、分割部13は、文「今日はいい天気です」を、「今日−は−いい−天気−です」という単語列(連鎖数は、5)に分解する。
このn−gramの出現確率p(A1−A2−・・・・・・−AN)は、下の式(1)によって算出される。
(a)当該n−gramを包含し、且つ当該n−gramよりも連鎖数の大きい他のn−gramが存在しない、または、
(b)当該n−gramを包含し且つ当該n−gramよりも連鎖数の大きい他のn−gramについての連鎖数およびχ2値の組合せが、いずれの前記の「他のn−gram」に関しても、キーフレーズ領域に属しない、
のいずれかの条件を満たす場合に限り、そのn−gramを抽出して出力する、これにより、包含関係にある単語列を重複して抽出してしまうことを防ぐことができる。
11 読込部
12 ツイート記憶部
13 分割部
14 グラフ生成部(分析部)
15 グラフ記憶部
16 ノード抽出部(抽出部)
Claims (6)
- テキストデータを言語要素の単位に分割する分割部と、
前記テキストデータに含まれる言語要素列を抽出し、前記言語要素列の間の包含関係によるリンク情報を生成するとともに、前記言語要素列の統計的独立性を表す統計値を算出する分析部と、
前記分析部によって抽出された前記言語要素列における言語要素の連鎖数と、前記分析部によって算出された前記言語要素列の前記統計値と、前記言語要素列に関する前記リンク情報が、所定の条件を満たすような言語要素列を抽出して出力する抽出部と、
を具備することを特徴とするフレーズ検出装置。 - 前記抽出部は、ある連鎖数に対して前記統計値が所定の第1閾値以上であるような、前記連鎖数と前記統計値との組合せを有するキーフレーズ領域に属する前記言語要素列を、抽出して出力する、ことを特徴とする請求項1に記載のフレーズ検出装置。
- 前記抽出部は、前記連鎖数に対して前記統計値が所定の第2閾値以上であるような、前記連鎖数と前記統計値との組合せを有する異常値領域に属する前記言語要素列を、除外して抽出する、ことを特徴とする請求項2に記載のフレーズ検出装置。
- 前記抽出部は、前記リンク情報に基づき、
(a)当該言語要素列を包含し、且つ当該言語要素列よりも連鎖数の大きい他の言語要素列が存在しない、または、
(b)当該言語要素列を包含し且つ当該言語要素列よりも連鎖数の大きい他の言語要素列についての前記連鎖数および前記統計値の組合せが、いずれの前記他の言語要素列に関しても、前記キーフレーズ領域に属しない、
のいずれかの条件を満たす場合に限り、当該言語要素列を抽出して出力する、
ことを特徴とする請求項2または3のいずれか一項に記載のフレーズ検出装置。 - 前記テキストデータは、発言単位ごとに識別されるものであり、
前記分析部は、前記言語要素列を抽出する際に、前記言語要素列を含む前記発言単位の識別情報のリストを生成するものであり、
前記抽出部は、前記リンク情報に基づき、前記(a)または前記(b)に加えて、
(c)当該言語要素列を包含し且つ当該言語要素列の連鎖数よりも連鎖数が1だけ大きい言語要素列のそれぞれ対応する前記発言単位の識別情報のリストのうち、要素数が最多の前記リストには含まれない前記識別情報が、他の前記リストに含まれている、という条件を満たす場合にも当該言語要素列を抽出して出力する、
ことを特徴とする請求項4に記載のフレーズ検出装置。 - コンピューターを、
テキストデータを言語要素の単位に分割する分割部と、
前記テキストデータに含まれる言語要素列を抽出し、前記言語要素列の間の包含関係によるリンク情報を生成するとともに、前記言語要素列の統計的独立性を表す統計値を算出する分析部と、
前記分析部によって抽出された前記言語要素列における言語要素の連鎖数と、前記分析部によって算出された前記言語要素列の前記統計値と、前記言語要素列に関する前記リンク情報が、所定の条件を満たすような言語要素列を抽出して出力する抽出部と、
を具備するフレーズ検出装置として機能させるプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012035515A JP5879150B2 (ja) | 2012-02-21 | 2012-02-21 | フレーズ検出装置およびそのプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012035515A JP5879150B2 (ja) | 2012-02-21 | 2012-02-21 | フレーズ検出装置およびそのプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2013171462A true JP2013171462A (ja) | 2013-09-02 |
JP5879150B2 JP5879150B2 (ja) | 2016-03-08 |
Family
ID=49265342
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2012035515A Active JP5879150B2 (ja) | 2012-02-21 | 2012-02-21 | フレーズ検出装置およびそのプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5879150B2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2015149216A1 (en) * | 2014-03-31 | 2015-10-08 | Intel Corporation | Location aware power management scheme for always-on- always-listen voice recognition system |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009064187A (ja) * | 2007-09-05 | 2009-03-26 | Sony Corp | 情報処理装置、情報処理方法、およびプログラム |
JP2013517563A (ja) * | 2010-01-15 | 2013-05-16 | コンパス ラボズ,インク. | ユーザ通信の解析システムおよび方法 |
-
2012
- 2012-02-21 JP JP2012035515A patent/JP5879150B2/ja active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009064187A (ja) * | 2007-09-05 | 2009-03-26 | Sony Corp | 情報処理装置、情報処理方法、およびプログラム |
JP2013517563A (ja) * | 2010-01-15 | 2013-05-16 | コンパス ラボズ,インク. | ユーザ通信の解析システムおよび方法 |
Non-Patent Citations (3)
Title |
---|
JPN6015039458; 中渡瀬 秀一: '統計的手法によるテキストからの重要語抽出メカニズム' 情報処理学会研究報告 第95巻第87号, 19950914, p.41-48, 社団法人情報処理学会 * |
JPN6015039459; 長尾 真 外2名: '日本語文献における重要語の自動抽出' 情報処理 第17巻第2号, 19760215, p.110-117, 社団法人情報処理学会 * |
JPN6015039461; 櫻井 茂明 外1名: 'キーフレーズに基づいたテキストの分析' 知能と情報 第17巻第1号, 20050215, p.52-59, 日本知能情報ファジィ学会 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2015149216A1 (en) * | 2014-03-31 | 2015-10-08 | Intel Corporation | Location aware power management scheme for always-on- always-listen voice recognition system |
KR20160113255A (ko) * | 2014-03-31 | 2016-09-28 | 인텔 코포레이션 | 항상-온-항상-청취 음성 인식 시스템을 위한 위치 인식 전력 관리 스킴 |
US10133332B2 (en) | 2014-03-31 | 2018-11-20 | Intel Corporation | Location aware power management scheme for always-on-always-listen voice recognition system |
KR102018152B1 (ko) | 2014-03-31 | 2019-09-04 | 인텔 코포레이션 | 항상-온-항상-청취 음성 인식 시스템을 위한 위치 인식 전력 관리 스킴 |
Also Published As
Publication number | Publication date |
---|---|
JP5879150B2 (ja) | 2016-03-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9720901B2 (en) | Automated text-evaluation of user generated text | |
CN109416705B (zh) | 利用语料库中可用的信息用于数据解析和预测 | |
US9229924B2 (en) | Word detection and domain dictionary recommendation | |
Aisopos et al. | Content vs. context for sentiment analysis: a comparative analysis over microblogs | |
JP7251181B2 (ja) | 対訳処理方法および対訳処理プログラム | |
Bouazizi et al. | Opinion mining in twitter how to make use of sarcasm to enhance sentiment analysis | |
US20180095946A1 (en) | Intelligent system that dynamically improves its knowledge and code-base for natural language understanding | |
Oudah et al. | A pipeline Arabic named entity recognition using a hybrid approach | |
US10803241B2 (en) | System and method for text normalization in noisy channels | |
JP5534280B2 (ja) | テキストクラスタリング装置、テキストクラスタリング方法、およびプログラム | |
KR20160121382A (ko) | 텍스트 마이닝 시스템 및 툴 | |
WO2017177809A1 (zh) | 语言文本的分词方法和系统 | |
US20130191718A1 (en) | Rule based apparatus for modifying word annotations | |
US11954173B2 (en) | Data processing method, electronic device and computer program product | |
US8880391B2 (en) | Natural language processing apparatus, natural language processing method, natural language processing program, and computer-readable recording medium storing natural language processing program | |
JP2007241902A (ja) | テキストデータの分割システム及びテキストデータの分割及び階層化方法 | |
Venčkauskas et al. | Problems of authorship identification of the national language electronic discourse | |
JP6563350B2 (ja) | データ分類装置、データ分類方法、及びプログラム | |
AU2017356150B2 (en) | System and method for detecting geo-locations in social media | |
JP2019148933A (ja) | 要約評価装置、方法、プログラム、及び記憶媒体 | |
KR20230115964A (ko) | 지식 그래프 생성 방법 및 장치 | |
JP5879150B2 (ja) | フレーズ検出装置およびそのプログラム | |
JP6600849B2 (ja) | 顔文字感情情報抽出システム、方法及びプログラム | |
CN111492364B (zh) | 数据标注方法、装置及存储介质 | |
JP2010257021A (ja) | 文章修正装置、文章修正システム、文章修正方法、文章修正プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20150105 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20150925 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20151006 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20151102 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20160105 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20160201 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5879150 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |