JPWO2016151692A1 - タグ付与支援装置、方法およびプログラム - Google Patents
タグ付与支援装置、方法およびプログラム Download PDFInfo
- Publication number
- JPWO2016151692A1 JPWO2016151692A1 JP2017507158A JP2017507158A JPWO2016151692A1 JP WO2016151692 A1 JPWO2016151692 A1 JP WO2016151692A1 JP 2017507158 A JP2017507158 A JP 2017507158A JP 2017507158 A JP2017507158 A JP 2017507158A JP WO2016151692 A1 JPWO2016151692 A1 JP WO2016151692A1
- Authority
- JP
- Japan
- Prior art keywords
- intention
- candidates
- hierarchical
- utterance
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Abandoned
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
- G06F16/9032—Query formulation
- G06F16/90332—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1815—Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1822—Parsing for meaning understanding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/221—Announcement of recognition results
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Theoretical Computer Science (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Databases & Information Systems (AREA)
- Mathematical Physics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
Abstract
Description
第1の実施形態に係るタグ付与支援装置について図1のブロック図を参照して説明する。
第1の実施形態に係るタグ付与支援装置100は、発話文取得部101(第1取得部ともいう)、意図候補推定部102、意図体系データベース(DB)103(第1格納部ともいう)、意図体系取得部104(第2取得部ともいう)、提示部105、意図選択部106および作業結果データベース(DB)107(第2格納部ともいう)を含む。
意図候補推定部102は、発話文取得部101から発話文を受け取り、発話文から、発話文が表す可能性のある発話意図を推定し、発話意図の候補となる1以上の意図候補を得る。
意図体系取得部104は、前記意図候補推定部102から発話文および1以上の意図候補を受け取り、1以上の意図候補に基づいて、意図体系DB103から意図体系の一部を1以上の階層意図候補として取得する。
意図選択部106は、提示部105から発話文および1以上の階層意図候補を、作業者150からの指示をそれぞれ受け取り、作業者150からの指示に応じた階層意図候補を、発話文の選択意図として選択する。
作業結果DB107は、意図選択部106から発話文および選択意図を受け取り、発話文および選択意図を対応付けて格納する。
図2に示すように、意図体系は、上位概念201および下位概念202を持つ階層構造で設計される。具体的には、上位概念201の意図として「電源操作」があり、「電源操作」の下位概念202の意図として「入れる」および「切る」が関連付いている。すなわち、「電源操作」という概念には、「電源を入れる」操作か「電源を切る」操作かを特定せず、「電源に関して何らかの操作をする」という意図が表されている。意図体系DB103に格納される意図体系は、外部データなどを参照して予め作成されればよい。
「Power(電源操作)」
「Power−on(電源を入れる)」
「Power−off(電源を切る)」
「Mute(消音操作)」
「Mute−on(消音する)」
「Mute−off(消音を解除する)」
「Volume(音量操作)」
「Volume−up(音量を上げる)」
「Volume−down(音量を下げる)」
「Volume−specific(音量を特定値にする)」
なお、各意図は、意図タグによって識別される。意図タグは、単なる意図を表す識別子であり、数字であっても記号であってもよい。また、その意図の意味を自然言語で説明する説明文が対応付けられていてもよい。なお、ハイフン「−」で接続される意図は、「上位概念−下位概念」を表す。
ステップS302では、意図候補推定部102が、発話文の1以上の意図候補を推定する。意図候補は、対話システムで用いられる意図から推定される。意図候補は、例えば、既存の意図解析処理によって得られる意図をN−bestの形式で取得すればよい。または、発話文と対話システムで取り扱われる意図の説明文との文字列マッチングによって、一致度の高い説明文に対応する意図から1以上の意図候補を選択すればよい。また、統計的手法によって、推定スコアの高い意図から順に1以上の意図候補として選択してもよい。統計的手法とは、事前に用意した複数の発話文と発話文の意図とのペアを正解データとして、未知の発話文に関する意図を統計的に推定する手法である。
階層意図候補は、例えば、少なくとも1つの意図候補について、意図候補に対応する意図体系における意図の階層上の上位概念の意図と、上位概念の意図の下位概念となる意図とを取得する方法があげられる。なお、1以上の意図候補のそれぞれについて、上位概念の意図の下位概念となる意図を全て取得してもよい。
ここで、上述のテレビの操作に関する対話システムでは意図が正確に解釈できない場合、例えばユーザが「音を少なくして」と発話した場合を想定する。発話文取得部101は、発話文「音を少なくして」を取得する。
ここでは、発話文「音を少なくして」の発話意図を既存の意図解析処理によって推定し、4−bestの意図候補401を得る。具体的には、「消音する」「音量を上げる」「音量を特定の値に変える」「音響モードを変更する」を得たとする。
図5は、図4の意図候補401について、図2に示す意図体系における上位概念の意図と、上位概念の意図に対する全ての下位概念の意図とを取得した階層意図候補501の例である。
つまり、作業者は、発話文「音を少なくして」に対して音量操作の下位層にある「下げる」を選択することで、意図選択部106が選択意図「volume−down(音量を下げる)」を得ることができる。
図5に示す階層意図候補501によれば、図4に示す意図候補では存在しない「volume−down(音量を下げる)」という意図を作業者に提示することができ、最適な意図タグを付与することができる。
図6に示すテーブル600は、発話文601と意図タグ602とを対応付けて格納する。上述の例では、図5に示すような階層意図候補501のうち、作業者に選択された階層意図候補501を選択意図(図6では意図タグ)として格納する。作業者の選択により付与されたテーブル600を意図候補推定部102で利用する意図解析処理のデータベースなどにフィードバックすることで、より意図候補推定の精度を高めることができる。
第1の実施形態では、意図体系の階層構造を保持したままの階層意図候補が提示されるが、第2の実施形態では、階層意図候補の階層構造を変換する点が異なる。このようにすることで、
第2の実施形態に係るタグ付与支援装置について図7を参照して説明する。
第2の実施形態に係るタグ付与支援装置700は、発話文取得部101、意図候補推定部102、意図体系DB103、意図体系取得部104、提示部105、意図選択部106、作業結果データベースDB107および変換部701を含む。
変換部701は、意図体系取得部104から階層意図候補を受け取り、階層意図候補の階層構造を変換する。変換方法としては、階層意図候補の中で下位概念として出現する回数が閾値以上である意図が上位概念となるように、階層意図候補の階層構造が変換されればよい。または、変換部701が発話文を1以上の文節に分割した際に、意図を表す確信度が閾値以上である文節の意味を表す意図が上位概念となるように、階層意図候補の階層構造が変換されればよい。確信度を算出する方法としては、例えば、対象とする対話システムの構築に用いられる発話文コーパスにおける各文節の出現確率を用いればよい。なお、文節の意味を表す意図は、意図候補推定部102における発話意図の推定処理と同様の処理を用いて取得すればよい。
図8(a)は、発話文「見てるのを止めて」に対して意図タグの付与処理を行った結果、意図体系取得部104で得られる階層意図候補の一例である。図8(a)に示すように、階層意図候補の中では下位概念の意図801「execute(する)」および下位概念の意図802「stop(止める)」が多く出現する。よって、予め設定される閾値が「5」である場合、変換部701は、階層意図候補の中で下位概念の意図801「execute(する)」および意図802「stop(止める)」が出現する回数が「7」回であり、閾値以上となることから、下位概念の意図801「execute(する)」および意図802「stop(止める)」がそれぞれ上位概念となるように階層構造を変換する。
また、記録媒体からコンピュータや組み込みシステムにインストールされたプログラムの指示に基づきコンピュータ上で稼働しているOS(オペレーティングシステム)や、データベース管理ソフト、ネットワーク等のMW(ミドルウェア)等が本実施形態を実現するための各処理の一部を実行してもよい。
さらに、本実施形態における記録媒体は、コンピュータあるいは組み込みシステムと独立した媒体に限らず、LANやインターネット等により伝達されたプログラムをダウンロードして記憶または一時記憶した記録媒体も含まれる。
また、記録媒体は1つに限られず、複数の媒体から本実施形態における処理が実行される場合も、本実施形態における記録媒体に含まれ、媒体の構成は何れの構成であってもよい。
また、本実施形態におけるコンピュータとは、パソコンに限らず、情報処理機器に含まれる演算処理装置、マイコン等も含み、プログラムによって本実施形態における機能を実現することが可能な機器、装置を総称している。
Claims (14)
- ユーザの発話に関する発話文を取得する第1取得部と、
前記発話文の発話意図を推定し、該発話意図の候補となる1以上の意図候補を得る推定部と、
対話システムで用いられる意図を階層構造で表現した意図体系を格納する第1格納部と、
前記1以上の意図候補に基づいて、前記意図体系の一部を1以上の階層意図候補として取得する第2取得部と、
前記1以上の階層意図候補を提示する提示部と、を具備することを特徴とするタグ付与支援装置。 - 前記1以上の階層意図候補から、前記ユーザまたは作業者からの指示に応じて階層意図候補を選択意図として選択する選択部をさらに具備することを特徴とする請求項1に記載のタグ付与支援装置。
- 前記発話文および前記選択意図を対応付けて格納する第2格納部をさらに具備することを特徴とする請求項2に記載のタグ付与支援装置。
- 前記第2取得部は、前記1以上の意図候補の少なくとも1つの意図候補について、対応する前記意図体系における意図の階層上の上位概念の意図と、該上位概念の意図の下位概念の意図とを取得することを特徴とする請求項1から請求項3のいずれか1項に記載のタグ付与支援装置。
- 前記1以上の階層意図候補の階層構造を変換する変換部をさらに具備し、
前記提示部は、前記階層構造が変換された1以上の階層意図候補を提示することを特徴とする請求項1から請求項4のいずれか1項に記載のタグ付与支援装置。 - 前記第1格納部に格納される前記意図体系の階層構造を変換する変換部をさらに具備し、
前記第2取得部は、前記階層構造が変換された意図体系から、前記1以上の階層意図候補として取得することを特徴とする請求項1から請求項4のいずれか1項に記載のタグ付与支援装置。 - 前記変換部は、下位概念として出現する回数が閾値以上である意図が上位概念となるように前記階層構造を変換することを特徴とする請求項5または請求項6に記載のタグ付与支援装置。
- 前記変換部は、前記発話文の1以上の文節のうち、意図を表す確信度が閾値以上である文節の意図が上位概念となるように前記階層構造を変換することを特徴とする請求項5から請求項7のいずれか1項に記載のタグ付与支援装置。
- 前記推定部は、前記発話文と意図タグの説明文との文字列マッチングにより、前記1以上の意図候補を得ることを特徴とする請求項1から請求項8のいずれか1項に記載のタグ付与支援装置。
- 前記推定部は、推定した意図のうちのN−bestを前記1以上の意図候補として得ることを特徴とする請求項1から請求項8のいずれか1項に記載のタグ付与支援装置。
- 前記第2取得部は、前記階層意図候補として、前記意図体系の一部を前記意図体系の構造を保持したまま取得することを特徴とする請求項1から請求項10のいずれか1項に記載のタグ付与支援装置。
- 前記提示部は、前記1以上の階層意図候補のうち最上位の階層を提示し、作業者の指示に応じて、該1以上の階層意図候補のうちの下位層を展開して提示することを特徴とする請求項3に記載のタグ付与支援装置。
- ユーザの発話に関する発話文を取得し、
前記発話文の発話意図を推定し、該発話意図の候補となる1以上の意図候補を得、
対話システムで用いられる意図を階層構造で表現した意図体系を格納部に格納し、
前記1以上の意図候補に基づいて、前記意図体系の一部を1以上の階層意図候補として取得し、
前記1以上の階層意図候補を提示することを特徴とするタグ付与支援方法。 - コンピュータを、
ユーザの発話に関する発話文を取得する第1取得手段と、
前記発話文の発話意図を推定し、該発話意図の候補となる1以上の意図候補を得る推定手段と、
対話システムで用いられる意図を階層構造で表現した意図体系を格納する第1格納手段と、
前記1以上の意図候補に基づいて、前記意図体系の一部を1以上の階層意図候補として取得する第2取得手段と、
前記1以上の階層意図候補を提示する提示手段と、して機能させるためのタグ付与支援プログラム。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2015/058544 WO2016151692A1 (ja) | 2015-03-20 | 2015-03-20 | タグ付与支援装置、方法およびプログラム |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018172662A Division JP6633708B2 (ja) | 2018-09-14 | 2018-09-14 | タグ付与支援装置、方法およびプログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JPWO2016151692A1 true JPWO2016151692A1 (ja) | 2017-06-15 |
Family
ID=56977862
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017507158A Abandoned JPWO2016151692A1 (ja) | 2015-03-20 | 2015-03-20 | タグ付与支援装置、方法およびプログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US10311867B2 (ja) |
JP (1) | JPWO2016151692A1 (ja) |
WO (1) | WO2016151692A1 (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2016151692A1 (ja) * | 2015-03-20 | 2016-09-29 | 株式会社 東芝 | タグ付与支援装置、方法およびプログラム |
KR102368488B1 (ko) * | 2018-11-30 | 2022-03-02 | 주식회사 카카오 | 발화 내용을 태깅하는 서버, 사용자 단말 및 방법 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000200273A (ja) * | 1998-11-04 | 2000-07-18 | Atr Interpreting Telecommunications Res Lab | 発話意図認識装置 |
JP2012042998A (ja) * | 2010-08-12 | 2012-03-01 | Nec Biglobe Ltd | 最適タグ提案装置、最適タグ提案システム、最適タグ提案方法、およびプログラム |
Family Cites Families (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
AU3694300A (en) | 1999-02-01 | 2000-08-18 | Ibm | Multimedia archive description scheme |
JP2003242136A (ja) * | 2002-02-20 | 2003-08-29 | Fuji Xerox Co Ltd | 構文情報タグ付与支援システムおよび方法 |
US7747601B2 (en) * | 2006-08-14 | 2010-06-29 | Inquira, Inc. | Method and apparatus for identifying and classifying query intent |
US8265939B2 (en) * | 2005-08-31 | 2012-09-11 | Nuance Communications, Inc. | Hierarchical methods and apparatus for extracting user intent from spoken utterances |
JP2007193697A (ja) | 2006-01-20 | 2007-08-02 | Oki Electric Ind Co Ltd | 情報収集装置,情報収集方法およびプログラム |
JP4895988B2 (ja) | 2007-12-13 | 2012-03-14 | ヤフー株式会社 | 文書分類装置の余分構造減退方法 |
US8521818B2 (en) * | 2010-08-05 | 2013-08-27 | Solariat, Inc. | Methods and apparatus for recognizing and acting upon user intentions expressed in on-line conversations and similar environments |
US20130325992A1 (en) * | 2010-08-05 | 2013-12-05 | Solariat, Inc. | Methods and apparatus for determining outcomes of on-line conversations and similar discourses through analysis of expressions of sentiment during the conversations |
US8688453B1 (en) * | 2011-02-28 | 2014-04-01 | Nuance Communications, Inc. | Intent mining via analysis of utterances |
US9928484B2 (en) * | 2011-06-24 | 2018-03-27 | Facebook, Inc. | Suggesting tags in status messages based on social context |
US9311298B2 (en) | 2013-06-21 | 2016-04-12 | Microsoft Technology Licensing, Llc | Building conversational understanding systems using a toolset |
US9870356B2 (en) * | 2014-02-13 | 2018-01-16 | Microsoft Technology Licensing, Llc | Techniques for inferring the unknown intents of linguistic items |
US9690771B2 (en) * | 2014-05-30 | 2017-06-27 | Nuance Communications, Inc. | Automated quality assurance checks for improving the construction of natural language understanding systems |
WO2016151692A1 (ja) * | 2015-03-20 | 2016-09-29 | 株式会社 東芝 | タグ付与支援装置、方法およびプログラム |
-
2015
- 2015-03-20 WO PCT/JP2015/058544 patent/WO2016151692A1/ja active Application Filing
- 2015-03-20 JP JP2017507158A patent/JPWO2016151692A1/ja not_active Abandoned
-
2017
- 2017-01-31 US US15/421,411 patent/US10311867B2/en active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000200273A (ja) * | 1998-11-04 | 2000-07-18 | Atr Interpreting Telecommunications Res Lab | 発話意図認識装置 |
JP2012042998A (ja) * | 2010-08-12 | 2012-03-01 | Nec Biglobe Ltd | 最適タグ提案装置、最適タグ提案システム、最適タグ提案方法、およびプログラム |
Non-Patent Citations (1)
Title |
---|
入江 友紀 外4名: "意図タグつきコーパスを用いた発話意図推定手法", 第38回 言語・音声理解と対話処理研究会資料 (SIG−SLUD−A301), JPN6018004890, 4 July 2003 (2003-07-04), JP, pages 7 - 12, ISSN: 0003738734 * |
Also Published As
Publication number | Publication date |
---|---|
US10311867B2 (en) | 2019-06-04 |
US20170140758A1 (en) | 2017-05-18 |
WO2016151692A1 (ja) | 2016-09-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10229675B2 (en) | Scalable dynamic class language modeling | |
US20120016671A1 (en) | Tool and method for enhanced human machine collaboration for rapid and accurate transcriptions | |
JP2019046468A (ja) | インターフェイススマートインタラクティブ制御方法、装置、システム及びプログラム | |
JP2016057986A (ja) | 音声翻訳装置、方法およびプログラム | |
JP2015176099A (ja) | 対話システム構築支援装置、方法、及びプログラム | |
JP6235280B2 (ja) | 音声同時処理装置、方法およびプログラム | |
JP6470097B2 (ja) | 通訳装置、方法およびプログラム | |
JP2015026057A (ja) | インタラクティブキャラクター基盤の外国語学習装置及び方法 | |
JP6143883B2 (ja) | 対話支援システム、方法、及びプログラム | |
US20140149119A1 (en) | Speech transcription including written text | |
JP6873805B2 (ja) | 対話支援システム、対話支援方法、及び対話支援プログラム | |
JP7132090B2 (ja) | 対話システム、対話装置、対話方法、及びプログラム | |
JP2016062357A (ja) | 音声翻訳装置、方法およびプログラム | |
JP2017058865A (ja) | 機械翻訳装置、機械翻訳方法および機械翻訳プログラム | |
JP6495792B2 (ja) | 音声認識装置、音声認識方法、プログラム | |
KR20170035529A (ko) | 전자 기기 및 그의 음성 인식 방법 | |
US8688447B1 (en) | Method and system for domain-specific noisy channel natural language processing (NLP) | |
JP6305629B2 (ja) | 分類装置、方法及びプログラム | |
KR20210060897A (ko) | 음성 처리 방법 및 장치 | |
JP2013109061A (ja) | 音声データ検索システムおよびそのためのプログラム | |
CN111326144A (zh) | 语音数据处理方法、装置、介质和计算设备 | |
WO2016151692A1 (ja) | タグ付与支援装置、方法およびプログラム | |
JP2015148758A (ja) | 音声対話システム及び音声対話方法 | |
JP6391925B2 (ja) | 音声対話装置、方法およびプログラム | |
JP2013050742A (ja) | 音声認識装置および音声認識方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20161205 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20180213 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20180315 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20180828 |
|
A762 | Written abandonment of application |
Free format text: JAPANESE INTERMEDIATE CODE: A762 Effective date: 20180925 |