JP2018524725A - 口語語義解析システム及び方法 - Google Patents

口語語義解析システム及び方法 Download PDF

Info

Publication number
JP2018524725A
JP2018524725A JP2017567752A JP2017567752A JP2018524725A JP 2018524725 A JP2018524725 A JP 2018524725A JP 2017567752 A JP2017567752 A JP 2017567752A JP 2017567752 A JP2017567752 A JP 2017567752A JP 2018524725 A JP2018524725 A JP 2018524725A
Authority
JP
Japan
Prior art keywords
sentence
analysis
colloquial
spoken
waiting
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2017567752A
Other languages
English (en)
Other versions
JP6596517B2 (ja
Inventor
チェン、ジャンソン
Original Assignee
ユウトウ・テクノロジー(ハンジョウ)・カンパニー・リミテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ユウトウ・テクノロジー(ハンジョウ)・カンパニー・リミテッド filed Critical ユウトウ・テクノロジー(ハンジョウ)・カンパニー・リミテッド
Publication of JP2018524725A publication Critical patent/JP2018524725A/ja
Application granted granted Critical
Publication of JP6596517B2 publication Critical patent/JP6596517B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2228Indexing structures
    • G06F16/2264Multidimensional index structures
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1815Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2228Indexing structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2468Fuzzy queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/33Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using fuzzy logic
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Fuzzy Systems (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Automation & Control Theory (AREA)
  • General Health & Medical Sciences (AREA)
  • Signal Processing (AREA)
  • Probability & Statistics with Applications (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本発明は、口語語義解析システム及びその方法を公開し、口語語義解析システムは、プリセットされた分野での口語語義を解析し、プリセットされた分野での語義文型を格納し、その各語義文型はアドレスに対応し、字とキーワードを含み、各キーワードはレベルに対応し、なお、各字が所在してる語義文型のアドレス及び/又は各レベルが所在してる語義文型のアドレスを格納するプリセットされたワードリストも有する格納ユニットと、待解析口語センテンスを取得する取得ユニットと、格納ユニットと取得ユニットとに連接され、待解析口語センテンスによって、格納ユニットにおける語義文型を検索し、待解析口語センテンスと合う候補語義文型及び相応の候補順序を取得する検索ユニットと、検索ユニットに連接され、ソートされた候補語義文型によって、ファジーマッチングアルゴリズムを採用して、待解析口語センテンスを解析し、解析結果を取得する解析ユニットと、を含む。

Description

本発明は、口語自然言語理解に関し、特に、ロバストネスが高い口語語義解析システム及びその方法に関する。
口語音声認識は、音声学、言語学、数学的な信号処理、パターン認識など多くの学科分野に関わる。知能設備の普及とともに、人と知能設備の間に、どうすればもっと直接的に友好的にインタラクションをすることができるのかが重要な問題になる。口語自然語言は、ユーザーに対して天然の友好性と便利性を持つため、口語自然言語に基づく人とマシンの間のインタラクションはトレンドになっており、工業界でもますます重視されてくる。口語自然言語交互の重要技術は、口語語義の理解にあり、即ち、ユーザーの話したセンテンスを解析することにより、ユーザーの伝えたい意図及び対応するキーワードを得る。一般的に、口語語義の理解を実現する方法は、相応しい語義文型を手作業で収集又は書き出し、待解析文型を前記文型とマッチングさせ、解析結果を得ることである。既存の口語語義解析方法は、主としては、何らかの文法に基づくマッチングであり、例えば、待解析口語センテンスは、語義文型と完全的なマッチングでなければ成功的に解析できず、このため、語義理解システムを構築する当業者は大量な時間をかけ、正則文法や文脈自由文法など語義文型を収集しなければならない。また、フロントエンド音声認識などモジュールには、識別の不正確の現象が存在するため、語義理解の解析に失敗ももたらし、さらに、待解析の文型は、大量な語義文型とマッチングする必要があるため、解析時間が長い及び効率が低い問題もある。
発明の内容
既存の口語語義解析方法に存在する上述した問題に対して、本発明においては、大規模の語義文型庫に速やかに、正確に、待解析口語センテンスと類似する文型を見つけ、正確な結果を出すことができる口語語義解析システム及び方法を提供する。
本発明により提供されたプリセットされた分野での口語語義を解析する口語語義解析システムは、
前記プリセットされる分野での語義文型を格納し、各々の前記語義文型はアドレスに対応し、前記語義文型は字とキーワードを含み、各々の前記キーワードはラベルに対応し、前記字が所在している前記語義文型のアドレス及び/又は前記ラベルが所在してる前記語義文型のアドレスを格納するプリセットされたワードリストも有する格納ユニットと、
待解析口語センテンスを取得する取得ユニットと、
前記格納ユニットと前記取得ユニットとにそれぞれ連接され、前記待解析口語センテンスにより、前記格納ユニットにある前記語義文型を検索し、前記待解析口語センテンスと合う候補語義文型及び相応の候補順序を取得する検索ユニットと、
前記検索ユニットに連接され、ソートされた前記候補語義文型によって、ファジーマッチングアルゴリズムを採用して、前記待解析口語センテンスを解析し、解析結果を取得する解析ユニットと、
を含む。
好ましくは、前記検索ユニットにおいて、
前記待解析口語センテンスにある、前記格納ユニットにおける前記キーワードと同じキーワードを取出して、それに、前記キーワードに対応するレベルを取得する取出しモジュールと、
前記取出しモジュールに連接され、前記待解析口語センテンスにある前記キーワードを前記キーワードに対応するレベルと入れ替え、入れ替え式の口語センテンスを形成する入れ替えモジュールと、
前記入れ替えモジュールに連接され、前記入れ替え式の口語センテンスにある字と前記レベルとにより、前記格納ユニットにある前記ワードリストを検索し、前記字とマッチングする前記語義文型のアドレス、及び/又は前記レベルとマッチングする前記語義文型のアドレスを取得する検索モジュールと、
前記検索モジュールに連接され、前記入れ替え式の口語センテンスの相似度と比較する方式を採用して、入れ替え式の口語センテンスにある前記字及び/又は前記レベルとマッチングする前記語義文型を相似度の高さの順にソートして、ソートされた前記候補語義文型を取得するソートモジュールと、
を含む。
好ましくは、前記ソートモジュールは得点公式を採用することにより、前記候補語義文型と前記入れ替え式の口語センテンスの間の相似度の点数を取得し、
前記得点公式は、
S=(S1+S2)/2
であり、
ここで、Sは前記候補語義文型と前記入れ替え式の口語センテンスの間の相似度の点数を表し、S1は前記候補語義文型中の前記字及び/又は前記レベルが前記入れ替え式の口語センテンスに占める割合を表し、S2は前記候補語義文型中の前記字及び/又は前記レベルが前記候補語義文型に占める割合を表す。
好ましくは、前記解析ユニットは、ソートされた前記候補語義文型により、ファジーマッチングアルゴリズムを採用して、前記待解析口語センテンスを解析する具体的な工程は、
前記候補語義文型の各々について、有限状態オートマトンネットワークを構築し、前記有限状態オートマトンネットワークによって、前記待解析口語センテンスを採点し、前記待解析口語センテンスの点数を比較して、点数が最も高い前記待解析口語センテンスを前記待解析口語センテンスの解析結果とする。
好ましくは、前記ワードリストはハッシュテーブルを採用して表れる。
口語語義解析システムに適用する口語語義解析方法は、
待解析口語センテンスを取得する工程S1と、
前記待解析口語センテンスにより、前記格納ユニットにある前記語義文型を検索し、前記待解析口語センテンスと類似する候補語義文型及び相応しい候補順序を取得する工程S2と、
ソートされた前記候補語義文型によって、ファジーマッチングアルゴリズムを採用して、前記待解析口語センテンスを解析して、解析結果を取得する工程S3と、
を含む。
好ましくは、前記工程S2の具体的な工程は、
前記格納ユニットにあるキーワードと同じ前記待解析口語センテンスにあるキーワードを取得して、前記キーワードに対応するレベルを取得する工程S21と、
前記待解析口語センテンスにある前記キーワードを、前記キーワードに対応するレベルと入れ替えて、入れ替え式の口語センテンスを形成する工程S22と、
前記入れ替え式の口語センテンスにある字と前記レベルにより、前記格納ユニットにある前記ワードリストを検索し、前記字とマッチングする前記語義文型のアドレス、及び/又は前記レベルとマッチングする前記語義文型のアドレスを取得す工程S23と、
前記入れ替え式の口語センテンスの相似度と比較する方式を採用して、前記入れ替え式の口語センテンスにある字とマッチングする前記語義文型及び/又は前記レベルとマッチングする前記語義文型を相似度の高さの順にソートして、ソートされた前記候補語義文型を取得する工程S24と、
を含む。
好ましくは、前記工程S24は得点公式を採用することにより、前記候補語義文型と前記入れ替え式の口語センテンスの間の相似度の点数を取得して、
前記得点公式は、
S=(S1+S2)/2であり、
ここで、Sは前記候補語義文型と前記入れ替え式の口語センテンスの相似度の点数を表し、S1は前記候補語義文型中の前記字及び/又は前記レベルが前記入れ替え式の口語センテンスに占める割合を表し、S2は前記候補語義文型中の前記字及び/又は前記レベルが前記候補語義文型に占める割合を表す。
好ましくは、前記工程S3の具体的な工程は、
前記候補語義文型の各々について、有限状態のオートマトンネットワークを構築する工程S31と、
前記有限状態のオートマトンネットワークによって、前記待解析口語センテンスを採点する工程S32と、
前記待解析口語センテンスの点数を比較して、点数が最も高い前記待解析口語センテンスを前記待解析口語センテンスの解析結果とする工程S33と、
を含む。
前記ワードリストは、ハッシュテーブルを採用して表れる。
本発明の技術案では、口語語義解析システムで検索ユニットによって、速やかに待解析口語センテンスと関係する文型を検索することができ、マッチング効率が上がり、ファジーマッチングアルゴリズムを採用することにより待解析口語センテンスを解析する時、待解析口語センテンスと候補語義文型の間に一致ではない部分が存在することができ、一定の故障許容性を有し、システムのロバストネスが高まるようになる。口語語義解析方法では、速やかに待解析口語センテンスと関係ある文型を検索することができることにより、マッチングの効率を高め、大規模の語義文型庫で速やかに、正確に待解析口語センテンスと類似する文型を見つけ、正確な結果を出力することができる。
図1は、本発明の一実施例の口語語義解析システムのブロック図である。 図2は、本発明の一実施例の口語語義解析方法のフローチャートである。 図3は、本発明の前記格納ユニットにおける上記の語義文型を検索する方法のフローチャートである。 図4は、本発明の前記待解析口語センテンスを解析する方法フローチャートである。 図5は、本発明の文型転置インデックスを示す図である。 図6は、本発明の文型に対応する有限状態オートマトンを示す図である。
以下は本発明の付図を参照しながら、本発明の実施例の技術案を明確に、完全に説明するが、明らかに、記載されている実施例はただ本発明の一実施例だけであり、全部の実施例とするものではない。本発明の実施例に基づいて、当業者が創造的な労働をすることなく得られた他の実施例は、全て本発明の保護範囲内に属する。
説明は、衝突しない状況では、本発明中の実施例及び実施例にある特徴を相互的に組み合わせることができる。
以下、付図と具体的な実施例により、本発明をより詳しく説明するが、本発明を限定するものではない。
図1の示したように、プリセットされた分野での口語語義を解析する口語語義解析システムは、
プリセットされている分野での語義文型を格納し、各語義文型は一つのアドレスに対応し、語義文型は字とキーワードを含み、各キーワードは一つのラベルに対応し、また、前記字が所在する語義文型のアドレス及び/又はラベルが所在する語義文型のアドレスを格納するプリセットされたワードリストも有する格納ユニット1と、
待解析口語センテンスを取得する取得ユニット2と、
格納ユニット1と取得ユニット2とにそれぞれ連接され、待解析口語センテンスにより、格納ユニット1にある語義文型を検索し、待解析口語センテンスと合う候補語義文型及び相応する候補順序を取得する検索ユニット3と、
検索ユニット3に連接され、ソートされた候補語義文型によって、ファジーマッチングアルゴリズムを採用して、待解析口語センテンスを解析し、解析結果を取得する解析ユニット4と、
を含む。
本実施例では、検索ユニット3により、速やかに待解析口語センテンスと関係する文型を検索することができ、マッチング効率を高め、ファジーマッチングアルゴリズムを採用することにより、待解析口語センテンスを解析する時、待解析口語センテンスと候補語義文型の間に一致ではない部分が存在することができ、且つ口語語義解析システムを構築する当業者は、大量の差が小さい文型を書く必要もなくなり、また、音声認識のフロントエンドのミスに対して、一定の許容性も有し、システムのロバストネスを高めることができる。
好ましい実施例では、検索ユニット3は、
格納ユニット1にあるキーワードと同じ待解析口語センテンスにあるキーワードを取出し、且つ、前記キーワードに対応するレベルを取得する取出しモジュール31と、
取出しモジュール31に連接され、待解析口語センテンスにあるキーワードをキーワードに対応するレベルと入れ替え、入れ替え式の口語センテンスを形成する入れ替えモジュール32と、
入れ替えモジュール32に連接され、入れ替え式の口語センテンス中の字とレベルとに基づいて、格納ユニット1にあるワードリストを検索し、字とマッチングする語義文型のアドレス、及び/又はレベルとマッチングする語義文型のアドレスを取得する検索モジュール34と、
検索モジュール34に連接され、入れ替え式の口語センテンスの相似度と比較する方式を採用して、入れ替え式の口語センテンスにある字及び/又はレベルとマッチングする語義文型を入れ替え式の口語センテンスと相似度の高さの順にソートして、ソートされた候補語義文型を取得するソートモジュール33と
を含む。
本実施例では、検索ユニット3は待解析口語センテンスが与えられた時に、インデックスによって、速やかに待解析口語センテンスと近い候補語義文型を検索するために用いられる。
具体的に、待解析口語センテンスを得た後、待解析口語センテンスにあるキーワードを取出し、ワードリストを検索し、待解析口語センテンスにおけるあらゆる可能な詞を遍歴し、ワードリストに当該詞や字が存在するかどうかを探し出し、存在する場合は、当該詞が待解析口語センテンスにおける位置を記録し、統計モデルにより検出し、条件ランダムフィールド(Conditional Radom Fields,CRF)訓練統計モデルを選択して、検出してもよく、待解析口語センテンスにおけるキーワードを相応するレベルと入れ替える。待解析口語センテンスにおけるレベル及び入れ替えられてない字をインデックスに検索する。本実施例では、各字あるいはレベルをワードリストに検索することにより、その字あるいはレベルが現れたことがある語義文型の全てのアドレス(ID)を得ることができる。各語義文型と待解析口語文型の間に、どのぐらいの字あるいはレベルはマッチングしているかを記録することができる。検索結果に対しては、相似度の点数の大きさの順にソートして、点数が最も高い文型は候補語義文型とされる。
好ましい実施例では、ソートモジュール33は得点公式を採用することにより、候補語義文型と入れ替え式の口語センテンスの間の相似度の点数を取得し、
得点公式は、
S=(S1+S2)/2Gであり、
ここで、Sは前記候補語義文型と前記入れ替え式の口語センテンスの相似度の点数を表し、S1は前記候補語義文型中の前記字及び/又は前記レベルが前記入れ替え式の口語センテンスに占める割合を表し、S2は前記候補語義文型中の前記字及び/又は前記レベルが前記候補語義文型に占める割合を表す。
好ましい実施例では、解析ユニット4はソートされた候補語義文型により、ファジーマッチングアルゴリズムを採用することにより、待解析口語センテンスを解析する具体的な過程は、
候補語義文型の各々について、有限状態オートマトンネットワークを構築して、有限状態オートマトンネットワークにより、待解析口語センテンスを採点して、待解析口語センテンスの点数を比較して、点数が最も高い待解析口語センテンスを待解析口語センテンスの解析結果とする。
本実施例では、解析ユニット4は、各候補語義文型に有限状態のオートマトンネットワークを構築することができる。各字あるいはレベルを有限状態のオートマトンネットワーク上に一つの弧とする。図6に示したように、一つのセンテンスに対応する有限状態のオートマトンネットワークが表示され、有限状態のオートマトンネットワークによって、待解析口語センテンスを解析し採点し、具体的には、キーワードテスト結果によって待解析口語センテンスにおけるキーワードを相応するレベルと入れ替える。待解析口語センテンスにn個のキーワードのテスト結果があると仮定すれと、2n個のレベルの可能な組み合わせが存在する。これら可能な組み合わせにレベルの位置が衝突する組み合わせを除くと、候補の待テストのレベルの入れ替えセンテンスが得られる。入れ替え式の口語センテンスを各文型から生成された有限状態のオートマトンネットワークとファジーマッチングし、マッチングする方法がたくさんあり、例えば、《Error-tolerant Finite-state Recognition with Applications to Morphological Analysis and Spelling Correction》のような方法があり、当該マッチング方法は既存の技術であるため、これ以上は贅言しなくて、当該マッチング方法は動的計画アルゴリズムにより、2つのセンテンスの間のマッチングする程度を速やかに算出することができ、点数によって、最高の文型及び相応する解析結果が得られる。
さらに、解析と採点する過程では待解析口語センテンスと口語語義センテンスの間に挿入及び/又は削除及び/又は置換をすることができ、且つ、挿入及び/又は削除及び/又は置換をする回数はプリセットされた閾値に制限され、回数は閾値より小さい場合、待解析センテンスは相応する語義文型と合うとし、逆の場合、合わないとする。
好ましい実施例では、ワードリストはハッシュテーブルによって表す。
図2に示したように、口語語義解析システムに応用する口語語義解析方法は、
待解析口語センテンスを取得する工程S1と、
待解析口語センテンスによって、格納ユニット1にある語義文型を検索して、待解析口語センテンスと相応する候補語義文型及び相応する候補順序を取得する工程S2と、
ソートされた候補語義文型によって、ファジーマッチングアルゴリズムを採用することにより、待解析口語センテンスを解析して、解析結果を取得する工程S3と、
を含む。
本実施例では、口語語義解析方法により、速やかに待解析口語センテンスと関係がある文型を検索することができ、マッチングの効率を高くし、大規模の語義文型庫中から待解析口語センテンスと類似する文型を速やかに且つ正確に見つけ、正確な結果を出力することができる。
図3の示したように、好ましい実施例では、工程S2の具体的な流れは、
待解析口語センテンスにある格納ユニット1のキーワードと同じなキーワードを取出して、そのキーワードに対応するレベルを取得する工程SS21と、
待解析口語センテンスにあるキーワードをそのキーワードに対応するレベルと入れ替えて、入れ替え式の口語センテンスを形成する工程S22と、
入れ替え式の口語センテンスにある字とレベルによって、格納ユニット1にあるワードリストを検索して、字とマッチングする語義文型のアドレス及び/又はレベルとマッチングする語義文型のアドレスを取得する工程S23と、
入れ替え式の口語センテンスの相似度合いと比較する方式を採用して、入れ替え式の口語センテンス中の字とマッチングする語義文型及び/又はレベルとマッチングする語義文型について、ソートを行い、そして、ソートされた候補語義文型を取得する工程S24と、
を含む。
本実施例では、口語語義解析方法はオフラインステージとオンラインステージの2つの部分を含むことができる。ここで、オフラインステージは、定義された分野のニーズによって、相応する分野での語義文型を収集と整理するものであり、その中に、語義文型は口語規則を見たし、且つ当該語義文型に解析する必要があるキーワードはレベルで表示されている。例えば、電話をかける分野での一つの可能なセンテンスは“張さんに電話をかけなさい”であり、“張さん”は解析する必要がある名称キーワードであるため、解析する必要のあるキーワードをレベルと入れ替えて、例えば、“張さん”を“$name”と入れ替え、それでは、当該の検索を介して、センテンスが書き直された後の文型は“$nameに電話をかけなさい”となる。各分野での語義文型にインデックスを立て、語義文型にある字とレベルを共同的にインデックスを立て、その中、レベルは字として検索される。図5では、本実施例においてハッシュテーブル反転インデックスを採用することを示した。ハッシュテーブルに格納されたのはすべての語義文型に現れたことがある字とレベルであり、それぞれの字とレベルとの後にリストがつき、リストにおける各要素に当該字あるいはレベルが所在している文型のアドレス(ID番号)が格納されている。
オンラインステージは、待解析口語センテンスが与えられた時に、インデックスによって、速やかに待解析センテンスと近い候補語義文型を検索するものである。その具体的な過程は、
待解析口語センテンスを取得した後に、待解析口語センテンスにあるキーワードを取り出し、ワードリストを検索し、ワードリストにあるワードごとについて、ハッシュインデックスを立てて、待解析口語センテンスが与えられた時に、待解析口語センテンスにあるすべての可能なワードを遍歴して、ハッシュテーブルに当該ワードが存在するかどうかを検索して、存在する場合、当該ワードは待解析センテンスにおける位置を記録し、統計モデルにより、検測を行い、条件ランダムフィールド訓練統計モデルを選択して検測してもよく、待解析口語センテンスにあるキーワードを相応するレベルと入れ替える。当該入れ替えはオフラインステージにある入れ替えと同じであり、待解析口語センテンスにあるレベル及び入れ替えられてない字をインデックスに検索する。本実施例では、それぞれの字あるいはレベルをハッシュ反転インデックスに検索すると、その字あるいはレベルが現れたことがある全ての語義文型のアドレス(ID)を得ることができる。各語義文型と待解析文型の間にどのぐらいの字あるいはレベルはマッチングするかを記録する。検索結果を相似度の得点の高さの順にソートして、点数が最も高い文型が候補語義文型とされる。
好ましい実施例では、工程S24は得点公式を採用することにより、候補語義文型と入れ替え式の口語センテンスの間の相似度の点数を取得し、
得点公式は、
S=(S1+S2)/2であり、
ここで、Sは前記候補語義文型と前記入れ替え式の口語センテンスの相似度の点数を表し、S1は前記候補語義文型中の前記字及び/又はレベルが前記入れ替え式の口語センテンスに占める割合を表し、S2は前記候補語義文型中の前記字及び/又はレベルが候補語義文型に占める割合を表す。
図4に示したように、好ましい実施例では、工程S3の具体的な過程は、
各候補語義文型に有限状態のオートマトンネットワークを構築する工程S31と、
有限状態のオートマトンネットワークによって、待解析口語センテンスを採点する工程S32と、
待解析口語センテンスの点数を比較して、点数が最も高い待解析口語センテンスを待解析口語センテンスの解析結果とする工程S33と、
を含む。
本実施例では、各候補語義文型に有限状態のオートマトンネットワークを構築することができる。それぞれの字あるいはレベルを有限状態のオートマトン上に一つの弧とする。図6に示したように、センテンスが対応する有限状態のオートマトンのネットワークを示し、有限状態のオートマトンのネットワークによって、待解析口語センテンスを解析し採点し、具体的に、キーワードの検測結果によって、待解析口語センテンスにあるキーワードを相応するレベルと入れ替える。待解析口語センテンスにn個のキーワードの検測結果があると仮定すると、2n個のレベルの可能な組み合わせが存在する。これらの可能な組み合わせにあるレベルの位置と衝突する組み合わせを除去することにより、候補の待テストのレベルの入れ替えセンテンスが得られ、入れ替え式の口語センテンスを各センテンスから生成された有限状態のオートマトンのネットワークとファジーマッチングして、マッチングする方法はたくさんあり、例えば《Error-tolerant Finite-state Recognition with Applications to Morphological Analysis and Spelling Correction》のような方法があり、当該マッチング方法は既存の技術なので、ここで贅言しないが、当該マッチング方法は動的計画アルゴリズムにより、速やかに2つのセンテンスの間のマッチング程度を算出することができ、採点によって、最も優れたセンテンス及び相応する解析結果が取得される。
さらに、解析と採点する過程に待解析口語センテンスと口語語義センテンスの間に挿入及び/又は削除及び/又は置換をすることができる。また、挿入及び/又は削除及び/又は置換をする回数は、プリセットされた閾値に制限され、個数は閾値より小さい場合、待解析センテンスを相応する語義文型と合うとし、逆の場合、合わないとする。
上述したのはただ本発明の好ましい実施例のみであり、本発明の実施例及び保護範囲を制限する意図はなく、当業者によって本発明の説明及び図面に基づいて均等な置換や明らかな変更によって得られる方案は、全て本発明の保護範囲内に属することを意識すべきである。

Claims (10)

  1. プリセットされた分野での口語語義を解析する口語語義解析システムであって、
    前記プリセットされる分野での語義文型を格納し、各々の前記語義文型はアドレスに対応し、前記語義文型は字とキーワードを含み、各々の前記キーワードはラベルに対応し、前記字が所在してる前記語義文型のアドレス及び/又は前記ラベルが所在してる前記語義文型のアドレスを格納するプリセットされたワードリストを有する格納ユニットと、
    待解析口語センテンスを取得する取得ユニットと、
    前記格納ユニットと前記取得ユニットとにそれぞれ連接され、前記待解析口語センテンスにより、前記格納ユニットにある前記語義文型を検索し、前記待解析口語センテンスと合う候補語義文型及び相応の候補順序を取得する検索ユニットと、
    前記検索ユニットに連接され、ソートされた前記候補語義文型によって、ファジーマッチングアルゴリズムを採用して、前記待解析口語センテンスを解析し、解析結果を取得する解析ユニットと、
    を含むことを特徴とするシステム。
  2. 前記検索ユニットにおいて、
    前記待解析口語センテンスにある、前記格納ユニットにおける前記キーワードと同じキーワードを取出して、それに、前記キーワードに対応するレベルを取得する取出しモジュールと、
    前記取出しモジュールに連接され、前記待解析口語センテンスにある前記キーワードを前記キーワードに対応するレベルと入れ替え、入れ替え式の口語センテンスを形成する入れ替えモジュールと、
    前記入れ替えモジュールに連接され、前記入れ替え式の口語センテンスにある字と前記レベルとにより、前記格納ユニットにある前記ワードリストを検索し、前記字とマッチングする前記語義文型のアドレス、及び/又は前記レベルとマッチングする前記語義文型のアドレスを取得する検索モジュールと、
    前記検索モジュールに連接され、前記入れ替え式の口語センテンスの相似度と比較する方式を採用して、入れ替え式の口語センテンスにある前記字及び/又は前記レベルとマッチングする前記語義文型を相似度の高さの順にソートして、ソートされた前記候補語義文型を取得するソートモジュールと、
    を含むことを特徴とする請求項1記載の口語語義解析システム。
  3. 前記ソートモジュールは、得点公式を採用することにより、前記候補語義文型と前記入れ替え式の口語センテンスの間の相似度の点数を取得し、
    前記得点公式は、
    S=(S1+S2)/2であり、
    ここで、Sは前記候補語義文型と前記入れ替え式の口語センテンスの間の相似度の点数を表し、S1は前記候補語義文型中の前記字及び/又は前記レベルが前記入れ替え式の口語センテンスに占める割合を表し、S2は前記候補語義文型中の前記字及び/又は前記レベルが前記候補語義文型に占める割合を表すことを特徴とする請求項2記載の口語語義解析システム。
  4. 前記解析ユニットは、ソートされた前記候補語義文型により、ファジーマッチングアルゴリズムを採用して、前記待解析口語センテンスを解析する具体的な工程は、
    前記候補語義文型の各々について、有限状態オートマトンネットワークを構築し、前記有限状態オートマトンネットワークによって、前記待解析口語センテンスを採点し、前記待解析口語センテンスの点数を比較して、点数が最も高い前記待解析口語センテンスを前記待解析口語センテンスの解析結果とすることを特徴とする請求項1記載の口語語義解析システム。
  5. 前記ワードリストはハッシュテーブルを採用して表れることを特徴とする請求項1記載の口語語義解析システム。
  6. 待解析口語センテンスを取得する工程S1と、
    前記待解析口語センテンスにより、前記格納ユニットにある前記語義文型を検索し、前記待解析口語センテンスと類似する候補語義文型及び相応しい候補順序を取得する工程S2と、
    ソートされた前記候補語義文型によって、ファジーマッチングアルゴリズムを採用して、前記待解析口語センテンスを解析して、解析結果を取得する工程S3と、
    を含むことを特徴とする請求項1記載の口語語義解析システムに適用する口語語義解析方法。
  7. 前記工程S2の具体的な工程は、
    前記格納ユニットにあるキーワードと同じ前記待解析口語センテンスにあるキーワードを取得して、前記キーワードに対応するレベルを取得する工程S21と、
    前記待解析口語センテンスにある前記キーワードを、前記キーワードに対応するレベルと入れ替えて、入れ替え式の口語センテンスを形成する工程S22と、
    前記入れ替え式の口語センテンスにある字と前記レベルにより、前記格納ユニットにある前記ワードリストを検索し、前記字とマッチングする前記語義文型のアドレス、及び/又は前記レベルとマッチングする前記語義文型のアドレスを取得す工程S23と、
    前記入れ替え式の口語センテンスの相似度と比較する方式を採用して、前記入れ替え式の口語センテンスにある字とマッチングする前記語義文型及び/又は前記レベルとマッチングする前記語義文型を相似度の高さの順にソートして、ソートされた前記候補語義文型を取得する工程S24と、
    を含むことを特徴とする請求項6記載の口語語義解析方法。
  8. 前記工程S24は、得点公式を採用することにより、前記候補語義文型と前記入れ替え式の口語センテンスの間の相似度の点数を取得して、
    前記得点公式は、
    S=(S1+S2)/2であり、
    ここで、Sは前記候補語義文型と前記入れ替え式の口語センテンスの相似度の点数を表し、S1は前記候補語義文型中の上記の字及び/又は前記レベルが前記入れ替え式の口語センテンスに占める割合を表し、S2は前記候補語義文型中の前記字及び/又は前記レベルが前記候補語義文型に占める割合を表すことを特徴とする請求項7記載の口語語義解析方法。
  9. 前記工程S3の具体的な工程は、
    前記候補語義文型の各々について、有限状態のオートマトンネットワークを構築する工程S31と、
    前記有限状態のオートマトンネットワークによって、前記待解析口語センテンスを採点する工程S32と、
    前記待解析口語センテンスの点数を比較して、点数が最も高い前記待解析口語センテンスを前記待解析口語センテンスの解析結果とする工程S33と、
    を含むことを特徴とする請求項6記載の口語語義解析方法。
  10. 前記ワードリストは、ハッシュテーブルを採用して表れることを特徴とする請求項7記載の口語語義解析方法。
JP2017567752A 2015-06-30 2016-06-14 口語語義解析システム及び方法 Active JP6596517B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201510385309.1A CN106326303B (zh) 2015-06-30 2015-06-30 一种口语语义解析系统及方法
CN201510385309.1 2015-06-30
PCT/CN2016/085763 WO2017000777A1 (zh) 2015-06-30 2016-06-14 一种口语语义解析系统及方法

Publications (2)

Publication Number Publication Date
JP2018524725A true JP2018524725A (ja) 2018-08-30
JP6596517B2 JP6596517B2 (ja) 2019-10-23

Family

ID=57607842

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017567752A Active JP6596517B2 (ja) 2015-06-30 2016-06-14 口語語義解析システム及び方法

Country Status (7)

Country Link
US (1) US20180190270A1 (ja)
EP (1) EP3318978A4 (ja)
JP (1) JP6596517B2 (ja)
CN (1) CN106326303B (ja)
HK (1) HK1231591A1 (ja)
TW (1) TWI601129B (ja)
WO (1) WO2017000777A1 (ja)

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106782560B (zh) * 2017-03-06 2020-06-16 海信集团有限公司 确定目标识别文本的方法及装置
CN109716326A (zh) * 2017-06-21 2019-05-03 微软技术许可有限责任公司 在自动聊天中提供个性化歌曲
DE102017211120A1 (de) * 2017-06-30 2019-01-03 Siemens Aktiengesellschaft Verfahren zur Erzeugung eines Abbildes eines Streckennetzes, Verwendung des Verfahrens, Computerprogramm und computerlesbares Speichermedium
CN108091321B (zh) * 2017-11-06 2021-07-16 芋头科技(杭州)有限公司 一种语音合成方法
CN109947264B (zh) * 2017-12-21 2023-03-14 北京搜狗科技发展有限公司 一种信息展现方法、装置及电子设备
US10861463B2 (en) * 2018-01-09 2020-12-08 Sennheiser Electronic Gmbh & Co. Kg Method for speech processing and speech processing device
CN108021559B (zh) * 2018-02-05 2022-05-03 威盛电子股份有限公司 自然语言理解系统以及语意分析方法
CN109065020B (zh) * 2018-07-28 2020-11-20 重庆柚瓣家科技有限公司 多语言类别的识别库匹配方法及系统
CN109783821B (zh) * 2019-01-18 2023-06-27 广东小天才科技有限公司 一种特定内容的视频的搜索方法及系统
CN109949799B (zh) * 2019-03-12 2021-02-19 广东小天才科技有限公司 一种语义解析方法及系统
CN110232921A (zh) * 2019-06-21 2019-09-13 深圳市酷开网络科技有限公司 基于生活服务的语音操作方法、装置、智能电视及系统
CN110378704B (zh) * 2019-07-23 2021-10-22 珠海格力电器股份有限公司 基于模糊识别的意见反馈的方法、存储介质和终端设备
CN111090411A (zh) * 2019-12-10 2020-05-01 重庆锐云科技有限公司 一种基于用户语音输入的共享产品智能推荐系统及方法
CN113569565B (zh) * 2020-04-29 2023-04-11 抖音视界有限公司 一种语义理解方法、装置、设备和存储介质
CN111680129B (zh) * 2020-06-16 2022-07-12 思必驰科技股份有限公司 语义理解系统的训练方法及系统
CN112489643B (zh) * 2020-10-27 2024-07-12 广东美的白色家电技术创新中心有限公司 转换方法、转换表的生成方法、装置及计算机存储介质
CN113435182A (zh) * 2021-07-21 2021-09-24 唯品会(广州)软件有限公司 自然语言处理中分类标注的冲突检测方法、装置和设备
CN114238667B (zh) * 2021-11-04 2024-04-02 北京建筑大学 一种地址管理的方法、装置、电子设备和存储介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005044020A (ja) * 2003-07-24 2005-02-17 Toshiba Corp 機械翻訳装置、プログラム及び機械翻訳方法

Family Cites Families (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3605735B2 (ja) * 1995-03-10 2004-12-22 株式会社Csk 自然言語の意味解析処理装置
TWI224771B (en) * 2003-04-10 2004-12-01 Delta Electronics Inc Speech recognition device and method using di-phone model to realize the mixed-multi-lingual global phoneme
CN100405362C (zh) * 2005-10-13 2008-07-23 中国科学院自动化研究所 一种汉语口语解析方法及装置
US8165877B2 (en) * 2007-08-03 2012-04-24 Microsoft Corporation Confidence measure generation for speech related searching
GB2458461A (en) * 2008-03-17 2009-09-23 Kai Yu Spoken language learning system
WO2010105216A2 (en) * 2009-03-13 2010-09-16 Invention Machine Corporation System and method for automatic semantic labeling of natural language texts
KR101253104B1 (ko) * 2009-09-01 2013-04-10 한국전자통신연구원 패턴 데이터베이스화 장치 및 그 방법, 이를 이용한 음성 이해 장치 및 그 방법
TWI441163B (zh) * 2011-05-10 2014-06-11 Univ Nat Chiao Tung 中文語音辨識裝置及其辨識方法
CN102681982A (zh) * 2012-03-15 2012-09-19 上海云叟网络科技有限公司 可让计算机理解的自然语言句子的自动语义识别的方法
US10019994B2 (en) * 2012-06-08 2018-07-10 Apple Inc. Systems and methods for recognizing textual identifiers within a plurality of words
CN103631772A (zh) * 2012-08-29 2014-03-12 阿里巴巴集团控股有限公司 机器翻译方法及装置
US9646604B2 (en) * 2012-09-15 2017-05-09 Avaya Inc. System and method for dynamic ASR based on social media
CN102968409B (zh) * 2012-11-23 2015-09-09 海信集团有限公司 智能人机交互语义分析方法及交互系统
CN103020230A (zh) * 2012-12-14 2013-04-03 中国科学院声学研究所 一种语义模糊匹配方法
US9123335B2 (en) * 2013-02-20 2015-09-01 Jinni Media Limited System apparatus circuit method and associated computer executable code for natural language understanding and semantic content discovery
US9432325B2 (en) * 2013-04-08 2016-08-30 Avaya Inc. Automatic negative question handling
CN103268313B (zh) * 2013-05-21 2016-03-02 北京云知声信息技术有限公司 一种自然语言的语义解析方法及装置
CN103309846B (zh) * 2013-06-26 2016-05-25 北京云知声信息技术有限公司 一种自然语言信息的处理方法及装置
US9318113B2 (en) * 2013-07-01 2016-04-19 Timestream Llc Method and apparatus for conducting synthesized, semi-scripted, improvisational conversations
US20150106091A1 (en) * 2013-10-14 2015-04-16 Spence Wetjen Conference transcription system and method
CN103578471B (zh) * 2013-10-18 2017-03-01 威盛电子股份有限公司 语音辨识方法及其电子装置
US9984067B2 (en) * 2014-04-18 2018-05-29 Thomas A. Visel Automated comprehension of natural language via constraint-based processing
US10073673B2 (en) * 2014-07-14 2018-09-11 Samsung Electronics Co., Ltd. Method and system for robust tagging of named entities in the presence of source or translation errors
CN104360994A (zh) * 2014-12-04 2015-02-18 科大讯飞股份有限公司 自然语言理解方法及系统

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005044020A (ja) * 2003-07-24 2005-02-17 Toshiba Corp 機械翻訳装置、プログラム及び機械翻訳方法

Also Published As

Publication number Publication date
TWI601129B (zh) 2017-10-01
US20180190270A1 (en) 2018-07-05
CN106326303A (zh) 2017-01-11
EP3318978A1 (en) 2018-05-09
HK1231591A1 (zh) 2017-12-22
CN106326303B (zh) 2019-09-13
WO2017000777A1 (zh) 2017-01-05
TW201701269A (zh) 2017-01-01
JP6596517B2 (ja) 2019-10-23
EP3318978A4 (en) 2019-02-20

Similar Documents

Publication Publication Date Title
JP6596517B2 (ja) 口語語義解析システム及び方法
CN112069298B (zh) 基于语义网和意图识别的人机交互方法、设备及介质
Huq et al. Sentiment analysis on Twitter data using KNN and SVM
US20190102373A1 (en) Model-based automatic correction of typographical errors
WO2014208213A1 (ja) ノン・ファクトイド型質問応答システムおよび方法
CN110502642B (zh) 一种基于依存句法分析与规则的实体关系抽取方法
KR101813683B1 (ko) 커널 rdr을 이용한 태깅 말뭉치 오류 자동수정방법
Povoda et al. Sentiment analysis based on support vector machine and big data
Chen et al. A study of language modeling for Chinese spelling check
CN114036930A (zh) 文本纠错方法、装置、设备及计算机可读介质
Palomino-Garibay et al. A random forest approach for authorship profiling
Supranovich et al. Ihs_rd: Lexical normalization for english tweets
Mandal et al. Clustering-based Bangla spell checker
Tschuggnall et al. Enhancing authorship attribution by utilizing syntax tree profiles
CN109213998A (zh) 中文错字检测方法及系统
CN108153728B (zh) 一种关键词确定方法及装置
Laddha et al. Extracting aspect specific opinion expressions
Fauziah et al. Lexicon Based Sentiment Analysis in Indonesia Languages: A Systematic Literature Review
Yan et al. Duluth at semeval-2017 task 6: Language models in humor detection
Wankhede et al. Data preprocessing for efficient sentimental analysis
CN112597768B (zh) 文本审核方法、装置、电子设备、存储介质及程序产品
CN110705285B (zh) 一种政务文本主题词库构建方法、装置、服务器及可读存储介质
QasemiZadeh et al. Adaptive language independent spell checking using intelligent traverse on a tree
CN110909128A (zh) 一种利用词根表进行数据查询的方法、设备、及存储介质
Uliniansyah et al. Developing corpus management system for Bahasa Indonesia the “Perisalah” project

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180221

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20181207

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190115

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190415

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190917

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190930

R150 Certificate of patent or registration of utility model

Ref document number: 6596517

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R154 Certificate of patent or utility model (reissue)

Free format text: JAPANESE INTERMEDIATE CODE: R154

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250