JP2017058804A - 検出装置、方法およびプログラム - Google Patents

検出装置、方法およびプログラム Download PDF

Info

Publication number
JP2017058804A
JP2017058804A JP2015181403A JP2015181403A JP2017058804A JP 2017058804 A JP2017058804 A JP 2017058804A JP 2015181403 A JP2015181403 A JP 2015181403A JP 2015181403 A JP2015181403 A JP 2015181403A JP 2017058804 A JP2017058804 A JP 2017058804A
Authority
JP
Japan
Prior art keywords
morpheme
unit
string
analysis result
morphemes
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2015181403A
Other languages
English (en)
Inventor
明子 坂本
Akiko Sakamoto
明子 坂本
住田 一男
Kazuo Sumita
一男 住田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2015181403A priority Critical patent/JP2017058804A/ja
Priority to US15/260,731 priority patent/US20170075879A1/en
Publication of JP2017058804A publication Critical patent/JP2017058804A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

【課題】適切な処理単位を検出することができる。【解決手段】本実施形態に係る検出装置は、形態素解析部と、依存構造解析部と、抽出部とを含む。形態素解析部は、ユーザの発話内容を表す文字列を形態素解析し、複数の形態素を含む形態素解析結果を生成する。依存構造解析部は、前記形態素解析結果について前記複数の形態素間の依存関係を解析する。抽出部は、前記依存関係に基づいて、依存構造が完結する形態素のまとまりを前記形態素解析結果から抽出する。【選択図】図1

Description

本発明の実施形態は、検出装置、方法およびプログラムに関する。
音声翻訳技術においては、従来の機械翻訳のようにあらかじめ推敲された書き言葉のテキストを入力するのではなく、人が発声した話し言葉が入力されるため、フィラーや言いよどみ、言い直しなど、発話内容とは直接関係ない言葉(要素)も含まれる。この不要な要素を削除することが後段の翻訳処理の精度を高めることにつながるため、重要である。
一方、出版分野などでは、出版する前の原稿を推敲する「校正」という人手作業が存在する。校正を自動化するための自然言語処理技術として、予め用意したテキストを受け付け、テキスト中で校正の対象となる部分を特定して正しい表記に変換する技術がある。
また、他の自然言語処理技術としては、形態素列に対する変換パターンを用いて口語表現から文語表現へ変換する技術がある。
特開平10−289233号公報 特許第3721397号
しかし、上述した校正を自動化するための技術では、テキストが事前に入手できていることが前提となっており、テキストの解析時には1文ずつ読み込む必要がある。このため、話し言葉の同時通訳を行う場面のように、テキストが漸進的に(順次)入力される場合、一文ずつ読み込めず、テキストを解析することができない。
また、形態素列に対する変換パターンだけで口語表現から文語表現へ変換を行う場合、口語表現に含まれる形態素同士の依存関係を考慮した変換は難しい。このため、発話途中で新しい文を話し始めたり、ある文を話している途中に別の文を挿入するような話し方をしたりすると、全体の構造を捉えた変換を行えないという問題がある。
本開示は、上述の課題を解決するためになされたものであり、適切な処理単位を検出することができる検出装置、方法およびプログラムを提供することを目的とする。
本実施形態に係る検出装置は、形態素解析部と、依存構造解析部と、抽出部とを含む。形態素解析部は、ユーザの発話内容を表す文字列を形態素解析し、複数の形態素を含む形態素解析結果を生成する。依存構造解析部は、前記形態素解析結果について前記複数の形態素間の依存関係を解析する。抽出部は、前記依存関係に基づいて、依存構造が完結する形態素のまとまりを前記形態素解析結果から抽出する。
第1の実施形態に係る検出装置を示すブロック図。 変換辞書格納部に格納される変換パターンの一例を示す図。 形態素パターン変換部の変換処理の一例を示す図。 末尾表現辞書格納部に格納される末尾表現辞書の一例を示す図。 第1の実施形態に係る検出装置の動作を示すフローチャート。 第1の実施形態に係る依存構造解析処理の詳細を示すフローチャート。 走査形態素列バッファに格納される走査形態素列の一例を示す図。 係り元形態素バッファに格納されるテーブルの一例を示す図。 第2の実施形態に係る検出装置を示すブロック図。 第2の実施形態に係る依存構造解析処理の詳細を示すフローチャート。 係り元形態素バッファに格納される倒置を含む形態素解析結果のテーブルの一例を示す図。 倒置修正部による修正結果の一例を示す図。
以下、図面を参照しながら本実施形態に係る検出装置、方法およびプログラムについて詳細に説明する。なお、以下の実施形態では、同一の参照符号を付した部分は同様の動作をおこなうものとして、重複する説明を適宜省略する。
本実施形態に係る検出装置は、自然言語処理または翻訳処理において用いられる処理単位を検出および抽出する場合を想定する。
(第1の実施形態)
第1の実施形態に係る検出装置について図1のブロック図を参照して説明する。
第1の実施形態に係る検出装置100は、取得部101、音声認識部102、形態素解析部103、変換辞書格納部104、形態素パターン変換部105、依存構造解析部106、走査形態素列バッファ107、係り元形態素バッファ108、末尾表現辞書格納部109、処理単位抽出部110および出力部111を含む。
取得部101は、マイクなどにより、ユーザの発話に基づく音声を取得する。音声は、話し言葉(口語表現)であり、取得部101は、音声を漸進的に(順次)取得する場合を想定する。なお、取得部101は、音声の代わりに、ユーザの発話内容を表す文字列を順次取得してもよい。例えば、取得部101は、ユーザからキーボード入力、手書き文字認識など一般的に用いられる入力方法により、ユーザの発話内容を文字列として取得すればよい。
音声認識部102は、ユーザの発話に基づく音声を受け取り、音声を音声認識して音声認識結果を生成する。具体的に音声認識結果は、音声が、文字列(テキスト)、単語系列または単語ラティスに変換されたものである。言い換えると、音声認識結果は、ユーザの発話内容を表す文字列である。音声認識処理は、例えば、隠れマルコフモデル(Hidden Markov Model:HMM)、ディープニューラルネットワーク(Deep Neural Network:DNN)を用いればよく、従来から広く一般に用いられる手法を適用すればよい。なお、音声認識部102は、取得部101からユーザの発話内容を示す文字列を受け取る場合は、そのまま後段に文字列を渡せばよい。
形態素解析部103は、音声認識部102から音声認識結果を受け取り、音声認識結果を形態素解析することにより、複数の形態素を含む形態素解析結果を生成する。なお、形態素解析部103は、音声認識部102からユーザの発話内容を示す文字列を受け取る場合も同様に、順次得られる文字列を形態素解析して、形態素解析結果を生成すればよい。
変換辞書格納部104は、形態素列の変換規則を格納する。変換規則は、変換条件となる形態素と変換後の形態素とを含む。ここでは、変換規則として、口語表現と文語表現との変換パターンを格納する。
形態素パターン変換部105は、形態素解析部103から形態素解析結果を受け取り、変換辞書格納部104に格納される変換パターンを参照して、形態素結果の口語表現を文語表現に変換する。なお、形態素パターン変換部105は、形態素解析結果が既に文語表現となっている場合は、そのまま後段に形態素解析結果を渡せばよい。
依存構造解析部106は、形態素パターン変換部105から文語表現の形態素解析結果を受け取り、形態素解析結果について複数の形態素間の依存関係を解析し、依存関係を示す依存構造を得る。依存関係の解析処理は、依存構造解析部106が依存関係辞書(図示せず)を保持し、例えば、チャート法といった従来から広く一般に知られている手法を適用することにより、ある形態素が別の形態素に係るかどうかを解析および判定すればよい。
走査形態素列バッファ107は、依存構造解析部106から形態素解析結果を受け取り、形態素解析結果を処理対象(走査用)となる形態素列を示す走査形態素列として格納する。さらに、走査形態素列バッファ107は、格納される形態素のうち何番目の形態素について処理するかを示すポインタを格納する。
係り元形態素バッファ108は、依存構造解析部106から形態素解析結果と解析により得られた依存構造とを受け取り格納する。さらに、係り元形態素バッファ108は、格納される形態素のうち何番目の形態素について処理するかを示すポインタを格納する。
末尾表現辞書格納部109は、末尾表現、ここでは、節末または文末で用いられる表現の形態素列を末尾表現辞書として格納する。
処理単位抽出部110は、依存構造解析部から形態素解析結果を受け取る。処理単位抽出部110は、走査形態素列バッファ107、係り元形態素バッファ108および末尾表現辞書格納部109を参照して、適切な処理単位として、依存構造が完結する形態素のまとまりを形態素解析結果から抽出する。
出力部111は、処理単位抽出部110から、抽出された形態素のまとまり(処理単位)を受け取り、処理単位を外部へ出力する。
次に、変換辞書格納部104に格納される変換パターンの一例について図2を参照して説明する。
図2に示すテーブル200は、口語表現201と文語表現202とを対応付けて格納する。口語表現201は、フィラーも含む話し言葉の形態素列であり、文語表現202は、書き言葉の形態素列である。
具体的には、口語表現201「まし/た/んで」と文語表現202「まし/た/ので」が対応付けられる。ここで「/」は、形態素間の区切りを示す。
なお、テーブル200には、口語表現201「えーと」に対応する文語表現202はないため、口語表現201「えーと」は、文語表現202では削除されることになる。
次に、形態素パターン変換部105の変換処理の一例について図3を参照して説明する。
形態素パターン変換部105は、図2に示す変換パターンを参照して、口語表現を文語表現に変換する。例えば、図3(a)に示すように、口語表現301「来月/には/えーと/既に/部品/は/そろえ/ました/んで」が文語表現302「来月/には/既に/部品/は/そろえ/ました/ので」と変換される。同様に、図3(b)に示すように、口語表現303「安心/なさっ/て/ください」が文語表現304「安心/し/て/ください」と変換される。
次に、末尾表現辞書格納部109に格納される末尾表現辞書の一例について図4を参照して説明する。
末尾表現辞書格納部109に格納されるテーブル400は、表現401および種別402を対応付けて格納する。
表現401は、文末または節末で用いられる形態素列を示す。種別402は、表現401の形態素列は節末であるか文末であるかを示す。具体例としては、表現401「の/で」と種別402「節末」とが対応付けられる。
次に、第1の実施形態に係る検出装置100の動作について図5のフローチャートを参照して説明する。なお、検出装置100は、ユーザからの音声またはユーザの発話内容を示す音声が入力されるたびに、図5に示す動作を順次実行するものとする。
ステップS501では、取得部101が、ユーザの音声を取得する。
ステップS502では、音声認識部102が、ユーザの音声を音声認識して音声認識結果を生成する。
ステップS503では、形態素解析部103が、音声認識結果を形態素解析して形態素解析結果を生成する。
ステップS504では、形態素パターン変換部105が、変換パターンに基づいて、形態素解析結果の口語表現を文語表現に変換する。
ステップS505では、依存構造解析部106が、文語表現の形態素解析結果について依存構造解析および処理単位抽出処理を行う。具体的な処理については図6を参照して後述する。
ステップS506では、出力部111が、ステップS505で得られる処理単位を出力する。以上で第1の実施形態に係る検出装置100の動作を終了する。
次に、ステップS505における依存構造解析および処理単位抽出処理の詳細について図6のフローチャートを参照して説明する。なお、走査形態素列バッファ107のポインタの初期値は、ゼロに設定されるものとする。
ステップS601では、依存構造解析部106が、新しい形態素を走査形態素列の末尾に追加し、走査形態素列バッファ107に格納する。なお、ステップS613の処理後に戻ってきた場合で、走査形態素列バッファ107に形態素が残っている場合は、残っている形態素の末尾に新しい形態素を追加する。
ステップS602では、処理単位抽出部110が、走査形態素列バッファ107のポインタを1つ進める。
ステップS603では、処理単位抽出部110が、走査形態素列バッファ107にポインタが指す形態素が存在するかどうかを判定する。形態素が存在する場合、ステップS604に進み、形態素が存在しない場合、処理が終了する。
ステップS604では、処理単位抽出部110が、走査形態素列バッファ107のポインタが指し示す形態素が末尾表現であるかどうか、すなわち、文末表現または節末表現であるかどうかを判定する。形態素が末尾表現である場合、ステップS608に進み、形態素が末尾表現でない場合、ステップS605に進む。
ステップS605では、係り元形態素バッファ108が、走査形態素列バッファ107のポインタが指し示す形態素を格納する。
ステップS606では、依存構造解析部106が、走査形態素列の中にステップS605で格納した形態素の係り先が存在するかどうかを判定する。走査形態素列の中に係り先が存在する場合、ステップS607に進み、係り先が存在しない場合、ステップS602に戻り、ステップS602以降の処理を繰り返す。
ステップS607では、ステップS605で格納した形態素の係り先となる係り先形態素が見つかったので、係り元形態素バッファ108が、係り先の形態素に関する情報である係り先形態素情報を、格納された形態素に対応付けて追加格納する。
ステップS608では、処理単位抽出部110が、依存構造が完結する形態素のまとまり、ここでは一例として、末尾表現(文末表現または節末表現)がルート(root)となる依存構造木を構成する形態素列(第1形態素列)を抽出する。
ステップS609では、処理単位抽出部110が、依存構造木を構成する形態素列を走査形態素列バッファ107と係り元形態素バッファ108とからそれぞれ削除する。この際、走査形態素列バッファ107では、走査形態素列と依存構造木を構成する形態素列(第1形態素列)との差分である形態素列(第2形態素列)を保持したままとする。
ステップS610では、処理単位抽出部110が、走査形態素列バッファ107のポインタをゼロに戻す。
ステップS611では、処理単位抽出部110が、形態素列が文末表現であるか節末表現であるかを判定する。形態素列が文末表現である場合、ステップS612に進み、形態素列が節末表現である場合、ステップS613に進む。
ステップS612では、処理単位抽出部110が、走査形態素列バッファ107に残る形態素列を削除する。
ステップS613では、処理単位抽出部110が、係り元形態素バッファ108に格納されるデータを削除し(係り元形態素バッファ108を空にし)、係り元形態素バッファ108のポインタをゼロに戻す。その後、ステップS601に戻り、同様の処理を繰り返す。以上で処理を終了する。
次に、図6に示す依存構造解析および処理単位抽出処理の具体例を、図7および図8を参照して説明する。
図7は、走査形態素列バッファ107に格納される走査形態素列の一例を示す。図8は、係り元形態素バッファ108に格納される形態素と係り元形態素との対応関係を示すテーブルの一例を示す。
なお、ここでは、取得部101、音声認識部102、形態素解析部103および形態素パターン変換部105によって以下の処理が行われるものとする。
取得部101が、ユーザから「来月にはえーと既に部品はそろえましたんで」という発話を取得する。
続いて、音声認識部102が、ユーザの発話「来月にはえーと既に部品はそろえましたんで」を音声認識して、音声認識結果として「来月にはえーと既に部品はそろえましたんで」の文字列を生成する。
続いて、形態素解析部103が、音声認識結果を形態素解析し、口語表現の形態素解析結果「来月/には/えーと/既に/部品/は/そろえ/ました/んで」を生成する。
続いて、形態素パターン変換部105が、口語表現の形態素解析結果を文語表現の形態素解析結果「来月/には/既に/部品/は/そろえ/ました/ので」に変換する。
上述の処理ののち、走査形態素列バッファ107は、依存構造解析部106から文語表現の形態素解析結果を受け取る。走査形態素列バッファ107は、走査形態素列701「来月/には/既に/部品/は/そろえ/ました/ので」を格納するとともに、それぞれの形態素に識別子を付与する。ここでは、形態素「来月」に対して「1」を付与し、形態素「には」に対して「2」を付与するといったように、それぞれの形態素に識別番号を付与する。
また、走査形態素列バッファ107は、ポインタ710を保持し、初期値が識別子のゼロに位置するように設定する。
最初の処理では、走査形態素列バッファ107に形態素列は格納されていないので、新しい走査形態素列として、「来月/には/既に/部品/は/そろえ/ました/ので」が追加される(ステップS601)。
ポインタが1つ進められ、識別子「1」の形態素「来月」が指し示される(ステップS602、ステップS603)。
末尾表現辞書格納部109を参照すると、形態素「来月」は末尾表現ではないので、形態素「来月」は、係り元形態素バッファ108に格納される(ステップS604、ステップS605)。
図8(a)に示す係り元形態素バッファ108に格納されるテーブル801には、係り元形態素811と係り先形態素812とが対応付けられて格納される。係り元形態素811は、走査形態素列から得られる形態素である。係り先形態素812は、係り元形態素811の係り先となる形態素である。係り先の判定は、依存構造解析部106による依存関係の解析処理に基づいて判定される。
テーブル801には、形態素「来月」が先頭に格納される。走査形態素列の中に形態素「来月」が係る相手となる形態素は存在しないため、係り元形態素811「来月」に対して、係り先形態素812を空白とするか、または単語「空」を格納する(ステップS606、ステップS607)。
続いて、走査形態素列バッファ107は、ポインタを1つ進められ、走査形態素列に次の形態素が入っているため、次の形態素「には」について処理する(ステップS602、ステップS603)。
末尾表現辞書格納部109を参照すると、形態素「には」も末尾表現ではないので、形態素「にも」は、係り元形態素バッファ108に格納される(ステップS604、ステップS605)。
係り元形態素バッファ108には、形態素「には」が2番目に格納される。走査形態素列の中に形態素「には」が係る係り先となる形態素は存在しないため、係り元形態素「には」に対して、係り先形態素812として「空」を格納する(ステップS606)。
上述の処理を繰り返し、8番目までポインタが進み、走査形態素列の形態素「ので」について処理する場合を想定する。
末尾表現辞書格納部109を参照すると、形態素「ので」は末尾表現(節末表現)であると判定される(ステップS604)。この場合の係り元形態素バッファ108に格納されるテーブルは、図8(b)に示すテーブル802となる。
処理単位抽出部110は、形態素「ので」をルートとして、依存構造木を構成する形態素列を抽出する。依存構造解析を行うことにより、依存構造木を構成する形態素列として、「既に/部品/は/そろえ/ました/ので」を得ることができる(ステップS608)。
さらに、処理単位抽出部110は、走査形態素列バッファ107および係り元形態素バッファ108から依存構造木を構成する形態素列(第1形態素列)「既に/部品/は/そろえ/ました/ので」を削除する(ステップS609)。削除を実行した場合の走査形態素列バッファ107に格納される走査形態素列は、走査形態素列と第1形態素列との差分である第2形態素列である、走査形態素列702「来月には」が残る。また、係り元形態素バッファ108に格納されるテーブルは、図8(c)に示すテーブル803となる。
その後、走査形態素列バッファ107におけるポインタをゼロまで戻す(ステップS610)。さらに、形態素「ので」は節末表現であるので、処理単位抽出部110は、図8(d)に示すテーブル804のように、係り元形態素バッファ108を空にし、係り元形態素バッファのポインタ(図示せず)をゼロに戻す(ステップS611、ステップS613)。
次に、取得部101が、ユーザから新たな発話「安心なさってください」を取得したとする。
音声認識部102、形態素解析部103および形態素パターン変換部105により、文語表現の形態素解析結果「安心/し/て/ください」について、依存構造解析処理が実行される。
走査形態素列バッファ107は、既に第2形態素列「来月には」が格納されているので、形態素「来月には」の末尾に新たな形態素「安心/し/て/ください」を追加して格納する(ステップS601、ステップS602)。これは、図7(c)に示す走査形態素列703の状態となる。
ステップS610の処理により、ポインタがゼロまで戻されているので、形態素「来月」から同様に、ステップS603からステップS608までの処理が繰り返される。ここでは、5番目の形態素「て」まで処理が終了し、ポインタが1つ進められ、6番目の形態素「ください」について処理がされる場合を想定する。
末尾表現辞書格納部109を参照すると、6番目の形態素「ください」は、末尾表現(文末表現)であると判定される(ステップS604)。この場合の係り元形態素バッファ108に格納されるテーブルは、図8(e)に示すテーブル805の状態となる。
形態素「ください」をルートとして、依存構造木を構成する形態素列を抽出する。依存構造解析を行うことにより、依存構造木を構成する形態素列として、「安心/し/て/ください」を得ることができる(ステップS608)。
処理単位抽出部110は、走査形態素列バッファ107および係り元形態素バッファ108から「安心/し/て/ください」を削除する(ステップS609)。削除を実行した場合の走査形態素列バッファ107に格納される走査形態素列は、走査形態素列704「来月には」となり、係り元形態素バッファ108に格納されるテーブルは、図8(f)に示すテーブル806となる。
その後、処理単位抽出部110は、走査形態素列バッファ107におけるポインタをゼロまで戻す(ステップS610)。さらに、形態素「ので」は文末表現であるので(ステップS611)、処理単位抽出部110は、図7Eに示す走査形態素列705のように、走査形態素列に残った形態素列「来月には」を削除する(ステップS612)。その後、処理単位抽出部110は、図8(g)に示すテーブル807のように、係り元形態素バッファ108を空にする(ステップS613)。
以上に示した第1の実施形態によれば、形態素が末尾表現であるかどうかを判定し、バッファに格納した依存関係に基づいて形態素列を出力することで、話し言葉によく見られる挿入の修正を行いながら、完結した節を処理単位として出力する。これによって、適切な処理単位を検出することができる。例えば、第1の実施形態に係る検出装置の後段の処理システムが、第1の実施形態に従って生成された処理単位を用いる同時通訳システムである場合、処理単位が適切な翻訳単位となるので、翻訳の同時性と正確性とを高める効果を得ることができる。
(第2の実施形態)
第2の実施形態では、文の間に文字が挿入される場合に加え、倒置を含む文に対しても適切な翻訳単位を抽出できる点が本実施形態と異なる。
第2の実施形態に係る検出装置について図9のブロック図を参照して説明する。
第2の実施形態に係る検出装置900は、取得部101、音声認識部102、形態素解析部103、変換辞書格納部104、形態素パターン変換部105、走査形態素列バッファ107、係り元形態素バッファ108、末尾表現辞書格納部109、処理単位抽出部110、出力部111、依存構造解析部901および倒置修正部902を含む。
依存構造解析部901および倒置修正部902以外は同様の処理を行うので、ここでの説明を省略する。
依存構造解析部901は、第1の実施形態で説明した処理に加え、形態素解析結果が倒置を含むかどうかを判定する。形態素解析結果が倒置を含む場合、倒置修正部902へ形態素解析結果を渡す。
倒置修正部902は、依存構造解析部901から倒置を含む形態素解析結果を受け取り、修正規則に従って、倒置部分を修正する。倒置修正部902は、倒置を修正した後、依存構造解析部106に修正後の形態素解析結果を送る。
次に、第2の実施形態に係る依存構造解析処理の詳細について図10のフローチャートを参照して説明する。
なお、ステップS1001およびステップS1002以外は同様の処理を行うので、ここでの説明を省略する。
ステップS1001では、依存構造解析部901が、形態素解析結果に倒置が含まれるかどうかを判定する。形態素解析結果に倒置が含まれる場合、ステップS1002に進み、形態素解析結果に倒置が含まれない場合、ステップS601に進む。
ステップS1002では、倒置修正部902が、倒置を修正する。
次に、倒置の修正処理の一例を図11および図12を参照して説明する。
図11は、係り元形態素バッファ108に格納される、倒置を含む形態素解析結果のテーブル1100である。
テーブル1100の係り先形態素812を見ると、識別子9、10の形態素列「Aさん/が」の形態素「が」に対応する係り先形態素が「7」、すなわち「そろえ/ました」の識別子7の形態素「ました」となる。よって、形態素「が」の前方に係り先が存在する。
ここで、倒置修正部902が、例えば、「ガ格を表す形態素の係り先が文の前方に存在する場合は、ガ格を持つ要素全体を文頭まで移動させる」という修正規則を有する場合、形態素列「Aさん/が」を文の先頭に移動させる。倒置修正部902による修正結果を図12(a)のテーブル1201に示す。
倒置修正部902は、テーブル1201に含まれる形態素の識別子および係り先形態素を、順番となるように修正する。修正結果が図12(b)のテーブル1202となる。具体的には、識別子が昇順となるようにリナンバされ、リナンバされた識別子に対応して、元の依存関係を保持するように係り先形態素も修正する。
なお、倒置の修正は、ここでの説明に限らず、一般的な倒置の修正処理を用いても同様に実現できる。
以上に示した第2の実施形態によれば、文の挿入加え、文に倒置が存在する場合でも倒置を修正し、形態素が末尾表現であるかどうかを判定し、バッファに格納した依存関係に基づいて形態素列を出力することで、完結した節または文を処理単位として出力する。これによって、第1の実施形態と同様に、適切な処理単位を検出することができる。
上述の実施形態の中で示した処理手順に示された指示は、ソフトウェアであるプログラムに基づいて実行されることが可能である。汎用の計算機システムが、このプログラムを予め記憶しておき、このプログラムを読み込むことにより、上述した検出装置による効果と同様な効果を得ることも可能である。上述の実施形態で記述された指示は、コンピュータに実行させることのできるプログラムとして、磁気ディスク(フレキシブルディスク、ハードディスクなど)、光ディスク(CD−ROM、CD−R、CD−RW、DVD−ROM、DVD±R、DVD±RW、Blu−ray(登録商標)Discなど)、半導体メモリ、又はこれに類する記録媒体に記録される。コンピュータまたは組み込みシステムが読み取り可能な記録媒体であれば、その記憶形式は何れの形態であってもよい。コンピュータは、この記録媒体からプログラムを読み込み、このプログラムに基づいてプログラムに記述されている指示をCPUで実行させれば、上述した実施形態の検出装置と同様な動作を実現することができる。もちろん、コンピュータがプログラムを取得する場合又は読み込む場合はネットワークを通じて取得又は読み込んでもよい。
また、記録媒体からコンピュータや組み込みシステムにインストールされたプログラムの指示に基づきコンピュータ上で稼働しているOS(オペレーティングシステム)や、データベース管理ソフト、ネットワーク等のMW(ミドルウェア)等が本実施形態を実現するための各処理の一部を実行してもよい。
さらに、本実施形態における記録媒体は、コンピュータあるいは組み込みシステムと独立した媒体に限らず、LANやインターネット等により伝達されたプログラムをダウンロードして記憶または一時記憶した記録媒体も含まれる。
また、記録媒体は1つに限られず、複数の媒体から本実施形態における処理が実行される場合も、本実施形態における記録媒体に含まれ、媒体の構成は何れの構成であってもよい。
なお、本実施形態におけるコンピュータまたは組み込みシステムは、記録媒体に記憶されたプログラムに基づき、本実施形態における各処理を実行するためのものであって、パソコン、マイコン等の1つからなる装置、複数の装置がネットワーク接続されたシステム等の何れの構成であってもよい。
また、本実施形態におけるコンピュータとは、パソコンに限らず、情報処理機器に含まれる演算処理装置、マイコン等も含み、プログラムによって本実施形態における機能を実現することが可能な機器、装置を総称している。
本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行なうことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。
100,900・・・検出装置、101・・・取得部、102・・・音声認識部、103・・・形態素解析部、104・・・変換辞書格納部、105・・・形態素パターン変換部、106,901・・・依存構造解析部、107・・・走査形態素列バッファ、108・・・係り元形態素バッファ、109・・・末尾表現辞書格納部、110・・・処理単位抽出部、111・・・出力部、200,400,801,802,803,804,805,806,807,1100,1201,1202・・・テーブル、201,301,303・・・口語表現、202,302,304・・・文語表現、401・・・表現、402・・・種別、701,702,703,704,705・・・走査形態素列、710・・・ポインタ、811・・・係り元形態素、812・・・係り先形態素、902・・・倒置修正部。

Claims (9)

  1. ユーザの発話内容を表す文字列を形態素解析し、複数の形態素を含む形態素解析結果を生成する形態素解析部と、
    前記形態素解析結果について前記複数の形態素間の依存関係を解析する依存構造解析部と、
    前記依存関係に基づいて、依存構造が完結する形態素のまとまりを前記形態素解析結果から抽出する抽出部と、を具備する検出装置。
  2. 前記抽出部は、前記まとまりとして、文末表現または節末表現を含む第1形態素列を抽出する請求項1に記載の検出装置。
  3. 前記形態素解析結果を、処理対象となる走査形態素列として格納する走査形態素列バッファをさらに具備し、
    前記抽出部は、前記まとまりとして文末表現を含む第1形態素列を抽出する場合、前記走査形態素列バッファに格納される形態素列を削除する請求項1または請求項2に記載の検出装置。
  4. 前記形態素解析結果を、処理対象となる走査形態素列として格納する走査形態素列バッファをさらに具備し、
    前記走査形態素列バッファは、前記まとまりが抽出される場合、前記走査形態素列と該まとまりとの差分である第2形態素列を保持し、該第2形態素列に新たな形態素解析結果を追加して格納する請求項1または請求項2に記載の検出装置。
  5. 口語表現と文語表現との変換パターンを格納する辞書格納部と、
    前記変換パターンを用いて前記口語表現を前記文語表現に変換するパターン変換部と、をさらに具備する請求項1から請求項4のいずれか1項に記載の検出装置。
  6. 前記ユーザの発話を順次取得する取得部と、
    前記ユーザの発話を音声認識し、音声認識結果として前記文字列を生成する音声認識部をさらに具備する請求項1から請求項5のいずれか1項に記載の検出装置。
  7. 前記文字列が倒置を含む場合、該倒置を修正する倒置修正部をさらに具備する請求項1から請求項6のいずれか1項に記載の検出装置。
  8. ユーザの発話内容を表す文字列を形態素解析し、複数の形態素を含む形態素解析結果を生成し、
    前記形態素解析結果について前記複数の形態素間の依存関係を解析し、
    前記依存関係に基づいて、依存構造が完結する形態素のまとまりを前記形態素解析結果から抽出する検出方法。
  9. コンピュータを、
    ユーザの発話内容を表す文字列を形態素解析し、複数の形態素を含む形態素解析結果を生成する形態素解析手段と、
    前記形態素解析結果について前記複数の形態素間の依存関係を解析する依存構造解析手段と、
    前記依存関係に基づいて、依存構造が完結する形態素のまとまりを前記形態素解析結果から抽出する抽出手段として機能させるための検出プログラム。
JP2015181403A 2015-09-15 2015-09-15 検出装置、方法およびプログラム Pending JP2017058804A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2015181403A JP2017058804A (ja) 2015-09-15 2015-09-15 検出装置、方法およびプログラム
US15/260,731 US20170075879A1 (en) 2015-09-15 2016-09-09 Detection apparatus and method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2015181403A JP2017058804A (ja) 2015-09-15 2015-09-15 検出装置、方法およびプログラム

Publications (1)

Publication Number Publication Date
JP2017058804A true JP2017058804A (ja) 2017-03-23

Family

ID=58236876

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015181403A Pending JP2017058804A (ja) 2015-09-15 2015-09-15 検出装置、方法およびプログラム

Country Status (2)

Country Link
US (1) US20170075879A1 (ja)
JP (1) JP2017058804A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113950649A (zh) * 2019-06-18 2022-01-18 三菱电机株式会社 解析装置、方法及程序

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11749265B2 (en) * 2019-10-04 2023-09-05 Disney Enterprises, Inc. Techniques for incremental computer-based natural language understanding
KR20210050901A (ko) * 2019-10-29 2021-05-10 엘지전자 주식회사 음성 인식 방법 및 음성 인식 장치
US11984124B2 (en) * 2020-11-13 2024-05-14 Apple Inc. Speculative task flow execution

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1097535A (ja) * 1996-05-16 1998-04-14 Atr Onsei Honyaku Tsushin Kenkyusho:Kk 音声言語解析装置
JP2006209173A (ja) * 2005-01-25 2006-08-10 Advanced Telecommunication Research Institute International 係り受け構造解析装置及びコンピュータプログラム
JP2008071001A (ja) * 2006-09-13 2008-03-27 C2Cube Inc 自然言語処理装置、およびプログラム
JP2012118723A (ja) * 2010-11-30 2012-06-21 Fujitsu Ltd 形態素解析装置、音声合成装置、形態素解析方法、形態素解析プログラム及び対応辞書の作成方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6092035A (en) * 1996-12-03 2000-07-18 Brothers Kogyo Kabushiki Kaisha Server device for multilingual transmission system
US9141689B2 (en) * 2008-06-11 2015-09-22 International Business Machines Corporation Persona management system for communications
JP5066242B2 (ja) * 2010-09-29 2012-11-07 株式会社東芝 音声翻訳装置、方法、及びプログラム
JP5392227B2 (ja) * 2010-10-14 2014-01-22 株式会社Jvcケンウッド フィルタリング装置およびフィルタリング方法
WO2016067418A1 (ja) * 2014-10-30 2016-05-06 三菱電機株式会社 対話制御装置および対話制御方法
US10460034B2 (en) * 2015-01-28 2019-10-29 Mitsubishi Electric Corporation Intention inference system and intention inference method

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1097535A (ja) * 1996-05-16 1998-04-14 Atr Onsei Honyaku Tsushin Kenkyusho:Kk 音声言語解析装置
JP2006209173A (ja) * 2005-01-25 2006-08-10 Advanced Telecommunication Research Institute International 係り受け構造解析装置及びコンピュータプログラム
JP2008071001A (ja) * 2006-09-13 2008-03-27 C2Cube Inc 自然言語処理装置、およびプログラム
JP2012118723A (ja) * 2010-11-30 2012-06-21 Fujitsu Ltd 形態素解析装置、音声合成装置、形態素解析方法、形態素解析プログラム及び対応辞書の作成方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
宇津呂 武仁 外3名: "コーパスからの日本語従属節係り受け選好情報の抽出および文係り受け解析における評価", 言語処理学会第5回年次大会ワークショップ論文集, JPN6018049567, 19 March 1999 (1999-03-19), JP, pages 79 - 86 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113950649A (zh) * 2019-06-18 2022-01-18 三菱电机株式会社 解析装置、方法及程序
CN113950649B (zh) * 2019-06-18 2022-12-09 三菱电机株式会社 解析装置、方法及计算机可读取的记录介质

Also Published As

Publication number Publication date
US20170075879A1 (en) 2017-03-16

Similar Documents

Publication Publication Date Title
JP6175900B2 (ja) 翻訳装置、方法、及びプログラム
JP6251958B2 (ja) 発話解析装置、音声対話制御装置、方法、及びプログラム
JP6493866B2 (ja) 情報処理装置、情報処理方法、およびプログラム
US9442910B2 (en) Method and system for adding punctuation to voice files
JP6505421B2 (ja) 情報抽出支援装置、方法およびプログラム
US10410632B2 (en) Input support apparatus and computer program product
JP2013206253A (ja) 機械翻訳装置、方法、およびプログラム
JP2008148322A (ja) 文字符号化処理方法及びシステム
JP2017208097A (ja) エンティティの多音字の曖昧さ回避方法及びエンティティの多音字の曖昧さ回避装置
JP2017058804A (ja) 検出装置、方法およびプログラム
JP6778655B2 (ja) 単語連接識別モデル学習装置、単語連接検出装置、方法、及びプログラム
JP2010256498A (ja) 変換モデル生成装置、音声認識結果変換システム、方法およびプログラム
JP7111758B2 (ja) 音声認識誤り訂正装置、音声認識誤り訂正方法及び音声認識誤り訂正プログラム
JP2015201215A (ja) 機械翻訳装置、方法、およびプログラム
JP2014240884A (ja) コンテンツ作成支援装置、方法およびプログラム
JP2010009446A (ja) 音声ファイルの検索システム、方法及びプログラム
JP5546565B2 (ja) 単語追加装置、単語追加方法、およびプログラム
JP5623380B2 (ja) 誤り文修正装置、誤り文修正方法およびプログラム
CN116360794A (zh) 数据库语言解析方法、装置、计算机设备及存储介质
JP2010092169A (ja) 情報処理装置及びプログラム
JP2003162524A (ja) 言語処理装置
JP2006343405A (ja) 音声理解装置、音声理解方法、単語・意味表現組データベースの作成方法、そのプログラムおよび記憶媒体
JP2014215970A (ja) 誤り検出装置、方法、及びプログラム
JP3958908B2 (ja) 書き起こしテキスト自動生成装置、音声認識装置および記録媒体
JP2014126925A (ja) 情報検索装置および情報検索方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180205

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20181120

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20181218

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20190218

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190411

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20191008

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20191206

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20200428