JP2017058804A - 検出装置、方法およびプログラム - Google Patents
検出装置、方法およびプログラム Download PDFInfo
- Publication number
- JP2017058804A JP2017058804A JP2015181403A JP2015181403A JP2017058804A JP 2017058804 A JP2017058804 A JP 2017058804A JP 2015181403 A JP2015181403 A JP 2015181403A JP 2015181403 A JP2015181403 A JP 2015181403A JP 2017058804 A JP2017058804 A JP 2017058804A
- Authority
- JP
- Japan
- Prior art keywords
- morpheme
- unit
- string
- analysis result
- morphemes
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 29
- 238000000034 method Methods 0.000 title description 39
- 238000000605 extraction Methods 0.000 claims abstract description 33
- 230000000877 morphologic effect Effects 0.000 claims abstract description 26
- 239000000284 extract Substances 0.000 claims abstract description 6
- 230000014509 gene expression Effects 0.000 claims description 87
- 238000006243 chemical reaction Methods 0.000 claims description 41
- 230000006870 function Effects 0.000 claims description 2
- 238000012545 processing Methods 0.000 abstract description 56
- 238000012937 correction Methods 0.000 description 17
- 238000013519 translation Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 4
- 238000003058 natural language processing Methods 0.000 description 3
- 230000001915 proofreading effect Effects 0.000 description 3
- 238000012217 deletion Methods 0.000 description 2
- 230000037430 deletion Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000003780 insertion Methods 0.000 description 2
- 230000037431 insertion Effects 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000001174 ascending effect Effects 0.000 description 1
- 239000000945 filler Substances 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/268—Morphological analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
Abstract
Description
一方、出版分野などでは、出版する前の原稿を推敲する「校正」という人手作業が存在する。校正を自動化するための自然言語処理技術として、予め用意したテキストを受け付け、テキスト中で校正の対象となる部分を特定して正しい表記に変換する技術がある。
また、形態素列に対する変換パターンだけで口語表現から文語表現へ変換を行う場合、口語表現に含まれる形態素同士の依存関係を考慮した変換は難しい。このため、発話途中で新しい文を話し始めたり、ある文を話している途中に別の文を挿入するような話し方をしたりすると、全体の構造を捉えた変換を行えないという問題がある。
本実施形態に係る検出装置は、自然言語処理または翻訳処理において用いられる処理単位を検出および抽出する場合を想定する。
第1の実施形態に係る検出装置について図1のブロック図を参照して説明する。
第1の実施形態に係る検出装置100は、取得部101、音声認識部102、形態素解析部103、変換辞書格納部104、形態素パターン変換部105、依存構造解析部106、走査形態素列バッファ107、係り元形態素バッファ108、末尾表現辞書格納部109、処理単位抽出部110および出力部111を含む。
図2に示すテーブル200は、口語表現201と文語表現202とを対応付けて格納する。口語表現201は、フィラーも含む話し言葉の形態素列であり、文語表現202は、書き言葉の形態素列である。
なお、テーブル200には、口語表現201「えーと」に対応する文語表現202はないため、口語表現201「えーと」は、文語表現202では削除されることになる。
形態素パターン変換部105は、図2に示す変換パターンを参照して、口語表現を文語表現に変換する。例えば、図3(a)に示すように、口語表現301「来月/には/えーと/既に/部品/は/そろえ/ました/んで」が文語表現302「来月/には/既に/部品/は/そろえ/ました/ので」と変換される。同様に、図3(b)に示すように、口語表現303「安心/なさっ/て/ください」が文語表現304「安心/し/て/ください」と変換される。
末尾表現辞書格納部109に格納されるテーブル400は、表現401および種別402を対応付けて格納する。
ステップS501では、取得部101が、ユーザの音声を取得する。
ステップS502では、音声認識部102が、ユーザの音声を音声認識して音声認識結果を生成する。
ステップS503では、形態素解析部103が、音声認識結果を形態素解析して形態素解析結果を生成する。
ステップS505では、依存構造解析部106が、文語表現の形態素解析結果について依存構造解析および処理単位抽出処理を行う。具体的な処理については図6を参照して後述する。
ステップS506では、出力部111が、ステップS505で得られる処理単位を出力する。以上で第1の実施形態に係る検出装置100の動作を終了する。
ステップS601では、依存構造解析部106が、新しい形態素を走査形態素列の末尾に追加し、走査形態素列バッファ107に格納する。なお、ステップS613の処理後に戻ってきた場合で、走査形態素列バッファ107に形態素が残っている場合は、残っている形態素の末尾に新しい形態素を追加する。
図7は、走査形態素列バッファ107に格納される走査形態素列の一例を示す。図8は、係り元形態素バッファ108に格納される形態素と係り元形態素との対応関係を示すテーブルの一例を示す。
続いて、音声認識部102が、ユーザの発話「来月にはえーと既に部品はそろえましたんで」を音声認識して、音声認識結果として「来月にはえーと既に部品はそろえましたんで」の文字列を生成する。
次に、取得部101が、ユーザから新たな発話「安心なさってください」を取得したとする。
第2の実施形態では、文の間に文字が挿入される場合に加え、倒置を含む文に対しても適切な翻訳単位を抽出できる点が本実施形態と異なる。
第2の実施形態に係る検出装置900は、取得部101、音声認識部102、形態素解析部103、変換辞書格納部104、形態素パターン変換部105、走査形態素列バッファ107、係り元形態素バッファ108、末尾表現辞書格納部109、処理単位抽出部110、出力部111、依存構造解析部901および倒置修正部902を含む。
図11は、係り元形態素バッファ108に格納される、倒置を含む形態素解析結果のテーブル1100である。
また、記録媒体からコンピュータや組み込みシステムにインストールされたプログラムの指示に基づきコンピュータ上で稼働しているOS(オペレーティングシステム)や、データベース管理ソフト、ネットワーク等のMW(ミドルウェア)等が本実施形態を実現するための各処理の一部を実行してもよい。
さらに、本実施形態における記録媒体は、コンピュータあるいは組み込みシステムと独立した媒体に限らず、LANやインターネット等により伝達されたプログラムをダウンロードして記憶または一時記憶した記録媒体も含まれる。
また、記録媒体は1つに限られず、複数の媒体から本実施形態における処理が実行される場合も、本実施形態における記録媒体に含まれ、媒体の構成は何れの構成であってもよい。
また、本実施形態におけるコンピュータとは、パソコンに限らず、情報処理機器に含まれる演算処理装置、マイコン等も含み、プログラムによって本実施形態における機能を実現することが可能な機器、装置を総称している。
Claims (9)
- ユーザの発話内容を表す文字列を形態素解析し、複数の形態素を含む形態素解析結果を生成する形態素解析部と、
前記形態素解析結果について前記複数の形態素間の依存関係を解析する依存構造解析部と、
前記依存関係に基づいて、依存構造が完結する形態素のまとまりを前記形態素解析結果から抽出する抽出部と、を具備する検出装置。 - 前記抽出部は、前記まとまりとして、文末表現または節末表現を含む第1形態素列を抽出する請求項1に記載の検出装置。
- 前記形態素解析結果を、処理対象となる走査形態素列として格納する走査形態素列バッファをさらに具備し、
前記抽出部は、前記まとまりとして文末表現を含む第1形態素列を抽出する場合、前記走査形態素列バッファに格納される形態素列を削除する請求項1または請求項2に記載の検出装置。 - 前記形態素解析結果を、処理対象となる走査形態素列として格納する走査形態素列バッファをさらに具備し、
前記走査形態素列バッファは、前記まとまりが抽出される場合、前記走査形態素列と該まとまりとの差分である第2形態素列を保持し、該第2形態素列に新たな形態素解析結果を追加して格納する請求項1または請求項2に記載の検出装置。 - 口語表現と文語表現との変換パターンを格納する辞書格納部と、
前記変換パターンを用いて前記口語表現を前記文語表現に変換するパターン変換部と、をさらに具備する請求項1から請求項4のいずれか1項に記載の検出装置。 - 前記ユーザの発話を順次取得する取得部と、
前記ユーザの発話を音声認識し、音声認識結果として前記文字列を生成する音声認識部をさらに具備する請求項1から請求項5のいずれか1項に記載の検出装置。 - 前記文字列が倒置を含む場合、該倒置を修正する倒置修正部をさらに具備する請求項1から請求項6のいずれか1項に記載の検出装置。
- ユーザの発話内容を表す文字列を形態素解析し、複数の形態素を含む形態素解析結果を生成し、
前記形態素解析結果について前記複数の形態素間の依存関係を解析し、
前記依存関係に基づいて、依存構造が完結する形態素のまとまりを前記形態素解析結果から抽出する検出方法。 - コンピュータを、
ユーザの発話内容を表す文字列を形態素解析し、複数の形態素を含む形態素解析結果を生成する形態素解析手段と、
前記形態素解析結果について前記複数の形態素間の依存関係を解析する依存構造解析手段と、
前記依存関係に基づいて、依存構造が完結する形態素のまとまりを前記形態素解析結果から抽出する抽出手段として機能させるための検出プログラム。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015181403A JP2017058804A (ja) | 2015-09-15 | 2015-09-15 | 検出装置、方法およびプログラム |
US15/260,731 US20170075879A1 (en) | 2015-09-15 | 2016-09-09 | Detection apparatus and method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015181403A JP2017058804A (ja) | 2015-09-15 | 2015-09-15 | 検出装置、方法およびプログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2017058804A true JP2017058804A (ja) | 2017-03-23 |
Family
ID=58236876
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2015181403A Pending JP2017058804A (ja) | 2015-09-15 | 2015-09-15 | 検出装置、方法およびプログラム |
Country Status (2)
Country | Link |
---|---|
US (1) | US20170075879A1 (ja) |
JP (1) | JP2017058804A (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113950649A (zh) * | 2019-06-18 | 2022-01-18 | 三菱电机株式会社 | 解析装置、方法及程序 |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11749265B2 (en) * | 2019-10-04 | 2023-09-05 | Disney Enterprises, Inc. | Techniques for incremental computer-based natural language understanding |
KR20210050901A (ko) * | 2019-10-29 | 2021-05-10 | 엘지전자 주식회사 | 음성 인식 방법 및 음성 인식 장치 |
US11984124B2 (en) * | 2020-11-13 | 2024-05-14 | Apple Inc. | Speculative task flow execution |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH1097535A (ja) * | 1996-05-16 | 1998-04-14 | Atr Onsei Honyaku Tsushin Kenkyusho:Kk | 音声言語解析装置 |
JP2006209173A (ja) * | 2005-01-25 | 2006-08-10 | Advanced Telecommunication Research Institute International | 係り受け構造解析装置及びコンピュータプログラム |
JP2008071001A (ja) * | 2006-09-13 | 2008-03-27 | C2Cube Inc | 自然言語処理装置、およびプログラム |
JP2012118723A (ja) * | 2010-11-30 | 2012-06-21 | Fujitsu Ltd | 形態素解析装置、音声合成装置、形態素解析方法、形態素解析プログラム及び対応辞書の作成方法 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6092035A (en) * | 1996-12-03 | 2000-07-18 | Brothers Kogyo Kabushiki Kaisha | Server device for multilingual transmission system |
US9141689B2 (en) * | 2008-06-11 | 2015-09-22 | International Business Machines Corporation | Persona management system for communications |
JP5066242B2 (ja) * | 2010-09-29 | 2012-11-07 | 株式会社東芝 | 音声翻訳装置、方法、及びプログラム |
JP5392227B2 (ja) * | 2010-10-14 | 2014-01-22 | 株式会社Jvcケンウッド | フィルタリング装置およびフィルタリング方法 |
WO2016067418A1 (ja) * | 2014-10-30 | 2016-05-06 | 三菱電機株式会社 | 対話制御装置および対話制御方法 |
US10460034B2 (en) * | 2015-01-28 | 2019-10-29 | Mitsubishi Electric Corporation | Intention inference system and intention inference method |
-
2015
- 2015-09-15 JP JP2015181403A patent/JP2017058804A/ja active Pending
-
2016
- 2016-09-09 US US15/260,731 patent/US20170075879A1/en not_active Abandoned
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH1097535A (ja) * | 1996-05-16 | 1998-04-14 | Atr Onsei Honyaku Tsushin Kenkyusho:Kk | 音声言語解析装置 |
JP2006209173A (ja) * | 2005-01-25 | 2006-08-10 | Advanced Telecommunication Research Institute International | 係り受け構造解析装置及びコンピュータプログラム |
JP2008071001A (ja) * | 2006-09-13 | 2008-03-27 | C2Cube Inc | 自然言語処理装置、およびプログラム |
JP2012118723A (ja) * | 2010-11-30 | 2012-06-21 | Fujitsu Ltd | 形態素解析装置、音声合成装置、形態素解析方法、形態素解析プログラム及び対応辞書の作成方法 |
Non-Patent Citations (1)
Title |
---|
宇津呂 武仁 外3名: "コーパスからの日本語従属節係り受け選好情報の抽出および文係り受け解析における評価", 言語処理学会第5回年次大会ワークショップ論文集, JPN6018049567, 19 March 1999 (1999-03-19), JP, pages 79 - 86 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113950649A (zh) * | 2019-06-18 | 2022-01-18 | 三菱电机株式会社 | 解析装置、方法及程序 |
CN113950649B (zh) * | 2019-06-18 | 2022-12-09 | 三菱电机株式会社 | 解析装置、方法及计算机可读取的记录介质 |
Also Published As
Publication number | Publication date |
---|---|
US20170075879A1 (en) | 2017-03-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6175900B2 (ja) | 翻訳装置、方法、及びプログラム | |
JP6251958B2 (ja) | 発話解析装置、音声対話制御装置、方法、及びプログラム | |
JP6493866B2 (ja) | 情報処理装置、情報処理方法、およびプログラム | |
US9442910B2 (en) | Method and system for adding punctuation to voice files | |
JP6505421B2 (ja) | 情報抽出支援装置、方法およびプログラム | |
US10410632B2 (en) | Input support apparatus and computer program product | |
JP2013206253A (ja) | 機械翻訳装置、方法、およびプログラム | |
JP2008148322A (ja) | 文字符号化処理方法及びシステム | |
JP2017208097A (ja) | エンティティの多音字の曖昧さ回避方法及びエンティティの多音字の曖昧さ回避装置 | |
JP2017058804A (ja) | 検出装置、方法およびプログラム | |
JP6778655B2 (ja) | 単語連接識別モデル学習装置、単語連接検出装置、方法、及びプログラム | |
JP2010256498A (ja) | 変換モデル生成装置、音声認識結果変換システム、方法およびプログラム | |
JP7111758B2 (ja) | 音声認識誤り訂正装置、音声認識誤り訂正方法及び音声認識誤り訂正プログラム | |
JP2015201215A (ja) | 機械翻訳装置、方法、およびプログラム | |
JP2014240884A (ja) | コンテンツ作成支援装置、方法およびプログラム | |
JP2010009446A (ja) | 音声ファイルの検索システム、方法及びプログラム | |
JP5546565B2 (ja) | 単語追加装置、単語追加方法、およびプログラム | |
JP5623380B2 (ja) | 誤り文修正装置、誤り文修正方法およびプログラム | |
CN116360794A (zh) | 数据库语言解析方法、装置、计算机设备及存储介质 | |
JP2010092169A (ja) | 情報処理装置及びプログラム | |
JP2003162524A (ja) | 言語処理装置 | |
JP2006343405A (ja) | 音声理解装置、音声理解方法、単語・意味表現組データベースの作成方法、そのプログラムおよび記憶媒体 | |
JP2014215970A (ja) | 誤り検出装置、方法、及びプログラム | |
JP3958908B2 (ja) | 書き起こしテキスト自動生成装置、音声認識装置および記録媒体 | |
JP2014126925A (ja) | 情報検索装置および情報検索方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20180205 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20181120 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20181218 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20190218 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20190411 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20191008 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20191206 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20200428 |