JP5466575B2 - 重要語抽出装置とその方法とプログラム - Google Patents
重要語抽出装置とその方法とプログラム Download PDFInfo
- Publication number
- JP5466575B2 JP5466575B2 JP2010117671A JP2010117671A JP5466575B2 JP 5466575 B2 JP5466575 B2 JP 5466575B2 JP 2010117671 A JP2010117671 A JP 2010117671A JP 2010117671 A JP2010117671 A JP 2010117671A JP 5466575 B2 JP5466575 B2 JP 5466575B2
- Authority
- JP
- Japan
- Prior art keywords
- word
- utterance
- unit
- appearance
- common
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
同じ参照符号を付し、説明は繰り返さない。
次に、単語近傍度算出部30は、最近傍発話距離数を式(5)と式(6)で求める。
〔変形例1〕
図8に、この発明の重要語抽出装置200′の機能構成例を示す。重要語抽出装置200′は、重要語抽出装置200に対して更に省略語補完処理部26を設けたものである。照応解析処理と省略語補完処理の両方を行う事で、重要度の算出精度を更に向上させることが可能になる。
Claims (7)
- 複数人による会話の形態素解析済みの対話テキストを入力として、その対話テキストを話者毎の発話単位に分割する発話分割部と、
上記発話単位に共通して出現する共通出現単語を抽出する共通出現単語抽出部と、
上記共通出現単語が他者の発話に出現する発話間隔を発話距離として検出し、当該発話距離数の逆数を単語近傍度として算出する単語近傍度算出部と、
上記共通出現単語の単語近傍度を入力として、その単語近傍度が高く、且つその数の多い共通出現単語ほど大きな値を示す重要度を算出する単語重要度算出部と、
を具備する重要語抽出装置。 - 請求項1に記載した重要語抽出装置において、
更に、
上記発話単語の指示語や代名詞を、それらが指し示す単語に置換する照応解析処理部又は、
上記発話単位内において省略されている語を補完する省略語補完処理部を、
具備することを特徴とする重要語抽出装置。 - 複数人による会話の形態素解析済みの対話テキストを入力として、その対話テキストを話者毎の発話単位に分割する発話分割部と、
上記発話単位に共通して出現する共通出現単語を抽出する共通出現単語抽出部と、
上記共通出現単語が他者の発話に出現する発話間隔を発話距離として検出し、当該発話距離数の逆数を単語近傍度として算出する単語近傍度算出部と、
上記発話分割部の出力する発話単位を入力として上記対話テキスト内の各単語の出現頻度TFを算出する単語出現頻度(TF)算出部と、
上記各単語の出現頻度TFを入力としてテキスト文書集合記憶部に記憶されている文書を参照して各単語を含む文書数DFを算出する文書出現頻度(DF)算出部と、
上記単語近傍度と、上記各単語の出現頻度TFと、各単語を含む文書数DFを入力として上記共通出現単語毎の重要度を算出する単語重要度算出部と、
を具備する重要語抽出装置。 - 発話分割部が、複数人による会話の形態素解析済みの対話テキストを入力として、その対話テキストを話者毎の発話単位に分割する発話分割過程と、
共通出現単語抽出部が、上記発話単位に共通して出現する共通出現単語を抽出する共通出現単語抽出過程と、
単語近傍度算出部が、上記共通出現単語が他者の発話に出現する発話間隔を発話距離として検出し、当該発話距離数の逆数を単語近傍度として算出する単語近傍度算出過程と、
単語重要度算出部が、上記共通出現単語の単語近傍度を入力として、その単語近傍度が高く、且つその数の多い共通出現単語ほど大きな値を示す重要度を算出する単語重要度算出過程と、
を含む重要語抽出方法。 - 請求項4に記載した重要語抽出方法において、
更に、
照応解析処理が、上記発話単語の指示語や代名詞を、それらが指し示す単語に置換する照応解析処理過程又は、
省略語補完処理部が、上記発話単位内において省略されている語を補完する省略語補完処理過程を、
含むことを特徴とする重要語抽出方法。 - 発話分割部が、複数人による会話の形態素解析済みの対話テキストを入力として、その対話テキストを話者毎の発話単位に分割する発話分割過程と、
共通出現単語抽出部が、上記発話単位に共通して出現する共通出現単語を抽出する共通出現単語抽出過程と、
単語近傍度算出部が、上記共通出現単語が他者の発話に出現する発話間隔を発話距離として検出し、当該発話距離数の逆数を単語近傍度として算出する単語近傍度算出過程と、
単語出現頻度(TF)算出部が、上記発話分割部の出力する発話単位を入力として上記対話テキスト内の各単語の出現頻度TFを算出する単語出現頻度(TF)算出過程と、
文書出現頻度(DF)算出部が、上記各単語の出現頻度TFを入力としてテキスト文書集合記憶部に記憶されている文書を参照して各単語を含む文書数DFを算出する文書出現頻度(DF)算出過程と、
単語重要度算出部が、上記単語近傍度と、上記各単語の出現頻度TFと、各単語を含む文書数DFを入力として上記共通出現単語毎の重要度を算出する単語重要度算出過程と、
を含む重要語抽出方法。 - 請求項1乃至3の何れかに記載した重要語抽出装置の各部の機能を、コンピュータに実行させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010117671A JP5466575B2 (ja) | 2010-05-21 | 2010-05-21 | 重要語抽出装置とその方法とプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010117671A JP5466575B2 (ja) | 2010-05-21 | 2010-05-21 | 重要語抽出装置とその方法とプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2011248409A JP2011248409A (ja) | 2011-12-08 |
JP5466575B2 true JP5466575B2 (ja) | 2014-04-09 |
Family
ID=45413639
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010117671A Expired - Fee Related JP5466575B2 (ja) | 2010-05-21 | 2010-05-21 | 重要語抽出装置とその方法とプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5466575B2 (ja) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013109635A (ja) * | 2011-11-22 | 2013-06-06 | Nippon Telegr & Teleph Corp <Ntt> | 単語重要度算出装置とその方法とプログラム |
JP6945130B2 (ja) * | 2016-09-13 | 2021-10-06 | パナソニックIpマネジメント株式会社 | 音声提示方法、音声提示プログラム、音声提示システム及び端末装置 |
JP6737398B2 (ja) | 2017-03-24 | 2020-08-05 | ヤマハ株式会社 | 重要単語抽出装置、関連会議抽出システム、及び重要単語抽出方法 |
CN109254973A (zh) | 2018-08-29 | 2019-01-22 | 北京百度网讯科技有限公司 | 用于更新信息的方法及装置 |
JP2020190970A (ja) * | 2019-05-23 | 2020-11-26 | 株式会社日立製作所 | 文書処理装置およびその方法、プログラム |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005025659A (ja) * | 2003-07-01 | 2005-01-27 | Nippon Telegr & Teleph Corp <Ntt> | ゼロ代名詞解消方法、解消装置、解消プログラムおよびプログラムを記録した記録媒体 |
JP2006113734A (ja) * | 2004-10-13 | 2006-04-27 | Hitachi Ltd | 情報処理装置、情報処理装置の制御方法、及びプログラム |
JP2008305127A (ja) * | 2007-06-07 | 2008-12-18 | Nippon Telegr & Teleph Corp <Ntt> | キーワード抽出装置、キーワード抽出方法、プログラム及び記録媒体 |
JP2009070180A (ja) * | 2007-09-13 | 2009-04-02 | Internatl Business Mach Corp <Ibm> | 情報の検索を支援する装置及び方法 |
JP5171501B2 (ja) * | 2008-03-07 | 2013-03-27 | ヤフー株式会社 | 重要語を抽出するサーバ、システム、方法およびプログラム |
-
2010
- 2010-05-21 JP JP2010117671A patent/JP5466575B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2011248409A (ja) | 2011-12-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Guzmán et al. | Metrics for Modeling Code-Switching Across Corpora. | |
Ramisch et al. | mwetoolkit: A framework for multiword expression identification. | |
US5930746A (en) | Parsing and translating natural language sentences automatically | |
JP5167546B2 (ja) | 文単位検索方法、文単位検索装置、コンピュータプログラム、記録媒体及び文書記憶装置 | |
US9600469B2 (en) | Method for detecting grammatical errors, error detection device for same and computer-readable recording medium having method recorded thereon | |
JP5496863B2 (ja) | 感情推定装置、その方法、プログラム及びその記録媒体 | |
US10403271B2 (en) | System and method for automatic language model selection | |
EP2418589A1 (en) | Retrieval device | |
JP5466575B2 (ja) | 重要語抽出装置とその方法とプログラム | |
WO2020210561A1 (en) | Unsupervised adaptation of sentiment lexicon | |
JP5564705B2 (ja) | 文構造解析装置、文構造解析方法および文構造解析プログラム | |
JP5713963B2 (ja) | 音声認識単語追加装置とその方法とプログラム | |
Bhuyan et al. | An N-gram based model for predicting of word-formation in Assamese language | |
US20210133394A1 (en) | Experiential parser | |
Agarwal et al. | Construction of a semi-automated model for FAQ retrieval via short message service | |
JP2013109635A (ja) | 単語重要度算出装置とその方法とプログラム | |
KR101646159B1 (ko) | Srl 기반의 문장 분석 방법 및 장치 | |
Yu et al. | Identification of Code‐Switched Sentences and Words Using Language Modeling Approaches | |
KR100559472B1 (ko) | 영한 자동번역에서 의미 벡터와 한국어 국소 문맥 정보를사용한 대역어 선택시스템 및 방법 | |
Pohl et al. | Using part of speech n-grams for improving automatic speech recognition of Polish | |
JP6486789B2 (ja) | 音声認識装置、音声認識方法、プログラム | |
JP2006004366A (ja) | 機械翻訳システム及びそのためのコンピュータプログラム | |
Ma et al. | A phonotactic-semantic paradigm for automatic spoken document classification | |
Zhang et al. | Partial parse selection for robust deep processing | |
JP5860861B2 (ja) | 焦点推定装置、モデル学習装置、方法、及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20121026 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20130903 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130910 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20131011 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20140114 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20140124 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5466575 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |