JP6524008B2 - 情報処理装置、情報処理方法およびプログラム - Google Patents
情報処理装置、情報処理方法およびプログラム Download PDFInfo
- Publication number
- JP6524008B2 JP6524008B2 JP2016058258A JP2016058258A JP6524008B2 JP 6524008 B2 JP6524008 B2 JP 6524008B2 JP 2016058258 A JP2016058258 A JP 2016058258A JP 2016058258 A JP2016058258 A JP 2016058258A JP 6524008 B2 JP6524008 B2 JP 6524008B2
- Authority
- JP
- Japan
- Prior art keywords
- sentence
- word
- importance
- compound
- information processing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/253—Grammatical analysis; Style critique
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/53—Processing of non-Latin text
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
Description
上記のように、蓄積されたメディアデータなどから概要を簡単に知ることを可能とする技術が求められている。例えば、以下のような要望がある。
・チーム内での会議で、メンバーの発言を音声認識し、認識したテキストから、会議の内容を短時間で把握する。
・コンタクトセンタで、顧客の問い合わせを音声認識し、認識したテキストから、問合わせ内容を把握し、アフターコールレポートを作成する。
FLR(t)=LR(t)×freq(t) ・・・(3)
・「メディア/インテリジェンス」(「メディア」および「インテリジェンス」という単語から構成される):1回出現
・「メディア/インテリジェンス/技術」(「メディア」、「インテリジェンス」および「技術」いう単語から構成される):3回出現
・「メディア/処理」(「メディア」および「処理」という単語から構成される):2回出現
・「技術/革新」(「技術」と「革新」という単語から構成される):1回出現
LR(メディアインテリジェンス技術)
=(FL(メディア)+1)×(FR(メディア)+1)
×(FL(インテリジェンス)+1)×(FR(インテリジェンス)+1)
×(FL(技術)+1)×(FR(技術)+1)
=((0+1)×(6+1)×(4+1)×(3+1)×(3+1)×(1+1))^(1/6)
=2.87
FLR(メディアインテリジェンス技術)
=LR(メディアインテリジェンス技術)×freq(メディアインテリジェンス技術)
=(log(2.87)+1)×3
=6.16
FLR(メディアインテリジェンス技術)
=LR(メディアインテリジェンス技術)×freq(メディアインテリジェンス技術)
=2.87×3
=8.61
・「A社」:3.0
・「メディアインテリジェンス技術」:6.16
・「長年」:1.0
・「研究」:3.0
特に音声から認識された文集合などでは、文の中に感動詞が含まれることがある。感動詞は、文の概要を示す語ではなく、文の重要度を算出するときに考慮する必要がない場合が多い。第2の実施形態にかかる情報処理装置は、感動詞などの特定の文字列を別の文字列に変換し、変換処理を実行した後の文集合を対象として、文の重要度を算出する。これにより、文の重要度をより高精度に算出することができる。
第3の実施形態にかかる情報処理装置は、文の類似性を考慮して文の重要度を算出する。これにより、例えば文集合全体に類似する文を重要文として選択可能となる。また、類似する文として既に選択済みの文にさらに類似する文は、選択され難くする。これにより、相互に類似する複数の文が重要文として選択されるという冗長性の問題を解消可能となる。
tf(t)×idf(t) ・・・(4)
idf(t)=log(D/df(t))+1 ・・・(5)
Score=λ1×sim(vi,vAll)
−(1−λ1)×(λ2×sim(vi,vSum)+(1−λ2)×msim(i))
・・・(6)
tempScore(i)=
α×rank1(i)+(1−α)rank2(i) ・・・(7)
本実施形態の処理により、複合語の重要度(ユニット性)、および、文の類似度(冗長性)の両者を考慮した文の重要度を算出できる。両者を考慮した文の重要度の算出方法はこれに限られるものではない。例えば、算出部102により算出された単語および複合語の重要度を、単語ベクトルの重みとして、図15に示す処理を実行するように構成してもよい。すなわち、図15のステップS703で重みとしたtf−idfの代わりに、算出部102により算出された重要度を用いて図15に示す処理を実行してもよい。これにより、複合語を構成する単語の重み(ユニット性)を考慮し、かつ、文の類似度である冗長性を考慮して文の重要度を算出可能となる。この場合は、例えば、図14のステップS605およびステップS607は実行しなくてもよい。図14のステップS606に相当する処理(図15)の中で、上記のようにtf−idfの代わりに、算出部102により算出された重要度を用いればよい。
第4の実施形態にかかる情報処理装置は、大規模なテキストコーパスから算出された連接頻度も考慮して重要度を算出する。これにより、例えば、重要文の選択対象となる文書が少量の場合でも、重要度をより高精度に算出可能となる。
101 抽出部
102、102−4 算出部
103、103−3 算出部
104−2 変換部
121−4 記憶部
200 端末
201 音声入力部
202 表示制御部
300 認識装置
400 記憶装置
500 ネットワーク
Claims (8)
- 文集合に含まれる文から、複数の単語により構成される複合語、および、前記複合語を構
成する単語以外の第1の単語を抽出する抽出部と、
前記第1の単語の出現頻度、前記複合語の出現頻度、および、前記複合語を構成する単語
が他の単語に連接する頻度を示す連接頻度、に基づいて、前記第1の単語および前記複合
語の重要度を示す第1の重要度を算出する第1の算出部と、
前記文集合に含まれる第1の文に対して、前記第1の文に含まれる前記第1の単語および
前記複合語の前記第1の重要度に基づいて、前記第1の文の重要度を示す第2の重要度を
算出する第2の算出部と、
を備える情報処理装置。 - 前記連接頻度は、前記複合語を構成する単語が、前記文集合に含まれる他の単語に連接す
る頻度、および、前記複合語を構成する単語が、前記文集合と異なるコーパスに含まれる
他の単語に連接する頻度、の少なくとも一方である、
請求項1に記載の情報処理装置。 - 前記文集合は、音声認識により出力された文を含む、請求項1に記載の情報処理装置。
- 前記文集合に含まれる文に含まれる第1の文字列を第2の文字列に変換する変換部と、
前記抽出部は、前記変換部により文字列が変換された前記文集合に含まれる文から、前記
複合語および前記第1の単語を抽出する、
請求項3に記載の情報処理装置。 - 前記第2の算出部は、前記第1の文に含まれる前記第1の単語および前記複合語の前記第
1の重要度に基づく前記第1の文の重要度を示す第1のスコアを算出し、前記文集合に含
まれる文に対して、前記文集合と類似し、かつ、前記文集合と類似する文として選択済み
の文がある場合は選択済みの文と類似しない文ほど重要度が大きいことを示す第2のス
コアを算出し、前記第1のスコアおよび前記第2のスコアに基づいて前記第2の重要度を
算出する、
請求項1に記載の情報処理装置。 - 前記第2の算出部は、前記第1の重要度を重みとする単語ベクトルを用いて、前記文集合
に含まれる文に対して、前記文集合と類似し、かつ、前記文集合と類似する文として選択
済みの文がある場合は選択済みの文と類似しない文ほど重要度が大きいことを示す前記
第2の重要度を算出する、
請求項1に記載の情報処理装置。 - 文集合に含まれる文から、複数の単語により構成される複合語、および、前記複合語を構
成する単語以外の第1の単語を抽出する抽出ステップと、
前記第1の単語の出現頻度、前記複合語の出現頻度、および、前記複合語を構成する単語
が他の単語に連接する頻度を示す連接頻度、に基づいて、前記第1の単語および前記複合
語の重要度を示す第1の重要度を算出する第1の算出ステップと、
前記文集合に含まれる第1の文に対して、前記第1の文に含まれる前記第1の単語および
前記複合語の前記第1の重要度に基づいて、前記第1の文の重要度を示す第2の重要度を
算出する第2の算出ステップと、
を含む情報処理方法。 - コンピュータを、
文集合に含まれる文から、複数の単語により構成される複合語、および、前記複合語を構
成する単語以外の第1の単語を抽出する抽出部と、
前記第1の単語の出現頻度、前記複合語の出現頻度、および、前記複合語を構成する単語
が他の単語に連接する頻度を示す連接頻度、に基づいて、前記第1の単語および前記複合
語の重要度を示す第1の重要度を算出する第1の算出部と、
前記文集合に含まれる第1の文に対して、前記第1の文に含まれる前記第1の単語および
前記複合語の前記第1の重要度に基づいて、前記第1の文の重要度を示す第2の重要度を
算出する第2の算出部、
として機能させるためのプログラム。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016058258A JP6524008B2 (ja) | 2016-03-23 | 2016-03-23 | 情報処理装置、情報処理方法およびプログラム |
US15/456,843 US20170277679A1 (en) | 2016-03-23 | 2017-03-13 | Information processing device, information processing method, and computer program product |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016058258A JP6524008B2 (ja) | 2016-03-23 | 2016-03-23 | 情報処理装置、情報処理方法およびプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2017174059A JP2017174059A (ja) | 2017-09-28 |
JP6524008B2 true JP6524008B2 (ja) | 2019-06-05 |
Family
ID=59896656
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2016058258A Active JP6524008B2 (ja) | 2016-03-23 | 2016-03-23 | 情報処理装置、情報処理方法およびプログラム |
Country Status (2)
Country | Link |
---|---|
US (1) | US20170277679A1 (ja) |
JP (1) | JP6524008B2 (ja) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10565311B2 (en) * | 2017-02-15 | 2020-02-18 | International Business Machines Corporation | Method for updating a knowledge base of a sentiment analysis system |
WO2019183543A1 (en) * | 2018-03-23 | 2019-09-26 | John Rankin | System and method for identifying a speaker's community of origin from a sound sample |
WO2020014354A1 (en) | 2018-07-10 | 2020-01-16 | John Rankin | System and method for indexing sound fragments containing speech |
JP7035893B2 (ja) * | 2018-08-06 | 2022-03-15 | 日本電信電話株式会社 | 要約文算出装置、要約文算出方法、及びプログラム |
CN109272262B (zh) * | 2018-11-26 | 2022-04-01 | 广州努比互联网科技有限公司 | 一种自然语言特征的分析方法 |
CN110728143A (zh) * | 2019-09-23 | 2020-01-24 | 上海蜜度信息技术有限公司 | 用于文档关键语句识别的方法与设备 |
WO2021183421A2 (en) | 2020-03-09 | 2021-09-16 | John Rankin | Systems and methods for morpheme reflective engagement response |
Family Cites Families (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6161083A (en) * | 1996-05-02 | 2000-12-12 | Sony Corporation | Example-based translation method and system which calculates word similarity degrees, a priori probability, and transformation probability to determine the best example for translation |
US6349282B1 (en) * | 1999-04-20 | 2002-02-19 | Larnout & Hauspie Speech Products N.V. | Compound words in speech recognition systems |
US7610189B2 (en) * | 2001-10-18 | 2009-10-27 | Nuance Communications, Inc. | Method and apparatus for efficient segmentation of compound words using probabilistic breakpoint traversal |
JP2005189955A (ja) * | 2003-12-24 | 2005-07-14 | Canon Inc | 文書処理方法、文書処理装置、制御プログラム及び記録媒体 |
US7783476B2 (en) * | 2004-05-05 | 2010-08-24 | Microsoft Corporation | Word extraction method and system for use in word-breaking using statistical information |
US8046355B2 (en) * | 2007-09-04 | 2011-10-25 | Google Inc. | Word decompounder |
CN101526938B (zh) * | 2008-03-06 | 2011-12-28 | 夏普株式会社 | 文档处理装置 |
JP4942727B2 (ja) * | 2008-11-26 | 2012-05-30 | 日本電信電話株式会社 | テキスト要約装置、その方法およびプログラム |
US8712759B2 (en) * | 2009-11-13 | 2014-04-29 | Clausal Computing Oy | Specializing disambiguation of a natural language expression |
EP2534585A4 (en) * | 2010-02-12 | 2018-01-24 | Google LLC | Compound splitting |
JP5066242B2 (ja) * | 2010-09-29 | 2012-11-07 | 株式会社東芝 | 音声翻訳装置、方法、及びプログラム |
JP5728374B2 (ja) * | 2011-12-08 | 2015-06-03 | 株式会社野村総合研究所 | 対話要約システムおよび対話要約プログラム |
-
2016
- 2016-03-23 JP JP2016058258A patent/JP6524008B2/ja active Active
-
2017
- 2017-03-13 US US15/456,843 patent/US20170277679A1/en not_active Abandoned
Also Published As
Publication number | Publication date |
---|---|
US20170277679A1 (en) | 2017-09-28 |
JP2017174059A (ja) | 2017-09-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6524008B2 (ja) | 情報処理装置、情報処理方法およびプログラム | |
JP5257071B2 (ja) | 類似度計算装置及び情報検索装置 | |
CN102770857B (zh) | 关系信息扩展装置、关系信息扩展方法以及程序 | |
JPWO2018097091A1 (ja) | モデル作成装置、テキスト検索装置、モデル作成方法、テキスト検索方法、データ構造、及びプログラム | |
JP5273735B2 (ja) | テキスト要約方法、その装置およびプログラム | |
TW201826145A (zh) | 從中文語料庫提取知識的方法和系統 | |
CN108536676B (zh) | 数据处理方法、装置、电子设备及存储介质 | |
JP6340351B2 (ja) | 情報検索装置、辞書作成装置、方法、及びプログラム | |
JP2006243673A (ja) | データ検索装置および方法 | |
JP4325370B2 (ja) | 文書関連語彙獲得装置及びプログラム | |
JP4795856B2 (ja) | クラスタリング方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体 | |
US11126783B2 (en) | Output apparatus and non-transitory computer readable medium | |
JP2011227749A (ja) | 略語完全語復元装置とその方法と、プログラム | |
JP2017068742A (ja) | 関連文書検索装置、モデル作成装置、これらの方法及びプログラム | |
JP7122773B2 (ja) | 辞書構築装置、辞書の生産方法、およびプログラム | |
JP5248121B2 (ja) | 愛称を推定する装置、方法およびプログラム | |
WO2020004401A1 (ja) | 回答文選択装置、方法、およびプログラム | |
JP2009104296A (ja) | 関連キーワード抽出方法及び装置及びプログラム及びコンピュータ読取可能な記録媒体 | |
Martadinata et al. | Building indonesian local language detection tools using wikipedia data | |
JP5959598B2 (ja) | モデル学習装置、ランキング装置、方法、及びプログラム | |
JP2014052803A (ja) | 音声ドキュメント検索方法および音声ドキュメント検索システム | |
KR102519955B1 (ko) | 토픽 키워드의 추출 장치 및 방법 | |
KR101476230B1 (ko) | 자연어와 수학식이 포함된 복합문장의 시맨틱 정보 추출방법과 그를 위한 장치 및 컴퓨터로 읽을 수 있는 기록매체 | |
JP5182960B2 (ja) | 店舗名曖昧性解消装置、その方法、プログラム及び記録媒体 | |
JP6805927B2 (ja) | インデックス生成プログラム、データ検索プログラム、インデックス生成装置、データ検索装置、インデックス生成方法、及びデータ検索方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A711 | Notification of change in applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A712 Effective date: 20170904 |
|
A711 | Notification of change in applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A711 Effective date: 20170905 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20180126 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20180306 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20180501 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20180703 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20181211 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20190304 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20190312 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20190405 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20190426 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6524008 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |