JP2009003811A - 属性判別装置、対話装置、及びプログラム - Google Patents

属性判別装置、対話装置、及びプログラム Download PDF

Info

Publication number
JP2009003811A
JP2009003811A JP2007165615A JP2007165615A JP2009003811A JP 2009003811 A JP2009003811 A JP 2009003811A JP 2007165615 A JP2007165615 A JP 2007165615A JP 2007165615 A JP2007165615 A JP 2007165615A JP 2009003811 A JP2009003811 A JP 2009003811A
Authority
JP
Japan
Prior art keywords
concept
word
attribute
classification
attribute information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2007165615A
Other languages
English (en)
Inventor
Kazuya Shimooka
和也 下岡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toyota Central R&D Labs Inc
Original Assignee
Toyota Central R&D Labs Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toyota Central R&D Labs Inc filed Critical Toyota Central R&D Labs Inc
Priority to JP2007165615A priority Critical patent/JP2009003811A/ja
Publication of JP2009003811A publication Critical patent/JP2009003811A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】概念語が表わす概念が有しうる属性として、疑問詞との対応を考慮した属性を判別し、適切な応答生成が行なえるようにする。
【解決手段】様相程度データベース生成部18によって、シソーラスに基づいて定まる概念語の分類名と、属性情報「様相」及び「程度」の各々に対して予め定められた判別ルールとに基づいて、概念語が表わす概念が有することができる属性情報を判別する。また、属性情報データベース生成部20によって、名詞句「AのB」について、属性情報「主体(人間)」、「主体(組織)」、及び「主体(生物)」、「所有者(人間)」、「所有者(組織)」、及び「所有者(生物)」を含む複数の属性情報によって表わされる修飾関係を解析するための修飾関係解析ルールに基づいて、概念語である名詞Aの属性情報を決定し、属性情報の出現頻度に基づいて、概念語の属性情報を判別する。
【選択図】図1

Description

本発明は、属性判別装置、対話装置、及びプログラムに係り、特に、概念語が表わす概念が有しうる属性を判別する属性判別装置、ユーザによる発話又は入力文に応答して対話する対話装置、及びプログラムに関する。
従来より、ある名詞がどのような属性情報を持ちうるかに関するデータベースを自動構築する手法が知られている(例えば、非特許文献1)。具体的には、大規模なコーパス内に出現した名詞句「AのB」における修飾関係を解析し、各名詞Bについて、出現した頻度が一定の割合以上の修飾関係を、名詞Bが持ちうる属性情報と判断して、データベースを自動構築している。
笹野遼平、河原大輔、黒橋禎夫 「名詞格フレーム辞書の自動構築とそれを用いた名詞句の関係解析」自然言語処理、Vol12、No.3、pp129−144、2005
しかしながら、上記の非特許文献1に記載の技術では、名詞が持ちうる属性情報の種類を、応答生成に適した種類に統合及び細分化していないため、属性情報を用いて適切な応答生成を行うことができない、という問題がある。例えば、名詞が持ちうる属性情報として「所有」が含まれているが、所有者に関する情報が考慮されていないため、属性情報「所有」に関する応答生成を行う際、疑問詞「誰」、「どこ」、「何」のうち、どの疑問詞を応答生成に用いるのが適切なのかを判断することができない。
また、上記の非特許文献1に記載の技術では、属性情報「商品」、「こと」、「物ごと」といったように、細かい分類の属性情報が考えられているが、これらの属性情報に関する応答を生成するためには、複数の疑問詞の何れを用いて応答生成するかを判断するための応答生成ルール(「商品−何のorどんな」、「こと−何のorどんな」、「物ごと−何orどんな」)を、それぞれ個別に用意しておく必要があり、属性情報と疑問詞との対応付けのコストが高くなってしまう、という問題がある。
本発明は、上記の問題点を解決するためになされたもので、概念語が表わす概念が有しうる属性として、疑問詞との対応を考慮した属性を判別し、適切な応答生成が行なえるようにする属性判別装置、対話装置、及びプログラムを提供することを目的とする。
上記の目的を達成するために第1の発明に係る属性判別装置は、複数の階層の各々の単語間の意味的類似関係に応じて、階層状に単語を分類し、かつ、前記意味的類似関係に応じた分類名を各階層の各分類に付した分類情報を記憶した記憶手段と、前記分類情報に基づいて定まる判別対象の概念語の分類に付された分類名と、様相及び程度を含む複数の属性の各々に対して予め定められた前記属性を判別するための前記分類名に関する判別条件とに基づいて、前記判別対象の概念語が表わす概念が有することができる前記属性を判別する判別手段とを含んで構成されている。
第2の発明に係るプログラムは、コンピュータを、複数の階層の各々の単語間の意味的類似関係に応じて、階層状に単語を分類し、かつ、前記意味的類似関係に応じた分類名を各階層の各分類に付した分類情報を記憶した記憶手段に記憶された前記分類情報に基づいて定まる判別対象の概念語の分類に付された分類名と、様相及び程度を含む複数の属性の各々に対して予め定められた前記属性を判別するための前記分類名に関する判別条件とに基づいて、前記判別対象の概念語が表わす概念が有することができる前記属性を判別する判別手段として機能させるためのプログラムである。
第1の発明及び第2の発明によれば、判別手段によって、分類情報に基づいて定まる判別対象の概念語の分類に付された分類名と、様相及び程度を含む複数の属性の各々に対して予め定められた判別条件とに基づいて、判別対象の概念語が表わす概念が有することができる属性を判別する。
従って、概念語が表わす概念が有しうる属性を、疑問詞との対応を考慮した様相及び程度を含む複数の属性から判別することができ、判別された概念語の属性を用いて、適切な応答生成を行うことができる。
ここで、概念語の品詞を、名詞、形容詞、及び副詞の3種類とすることができる。
第3の発明に係る属性判別装置は、複数の階層の各々の単語間の意味的類似関係に応じて、階層状に単語を分類し、かつ、前記意味的類似関係に応じた分類名を各階層の各分類に付した分類情報を記憶した記憶手段と、名詞である概念語と該概念語を修飾している単語とを含む複数の名詞句の各々について、前記分類情報に基づいて、前記名詞句の前記概念語及び前記単語の各々の分類に付された分類名を判別し、主体が人間であること、主体が組織であること、及び主体が人間以外の生物であること、又は所有者が人間であること、所有者が組織であること、及び所有者が人間以外の生物であることを含む複数の属性と、前記概念語及び前記単語の各々の分類に付された分類名との予め定められた対応関係、及び前記判別された前記概念語及び前記単語の各々の分類に付された分類名に基づいて、前記名詞句の前記概念語と前記単語との間の修飾関係を表わす属性情報を決定する決定手段と、各概念語について、前記決定手段によって前記名詞句の前記概念語と前記単語との間の修飾関係を表わす属性情報として決定された前記属性の頻度又は割合に基づいて、前記概念語が表わす概念が有することができる属性を判別する判別手段とを含んで構成されている。
第4の発明に係るプログラムは、コンピュータを、名詞である概念語と該概念語を修飾している単語とを含む複数の名詞句の各々について、複数の階層の各々の単語間の意味的類似関係に応じて、階層状に単語を分類し、かつ、前記意味的類似関係に応じた分類名を各階層の各分類に付した分類情報を記憶した記憶手段に記憶された前記分類情報に基づいて、前記名詞句の前記概念語及び前記単語の各々の分類に付された分類名を判別し、主体が人間であること、主体が組織であること、及び主体が人間以外の生物であること、又は所有者が人間であること、所有者が組織であること、及び所有者が人間以外の生物であることを含む複数の属性と、前記概念語及び前記単語の各々の分類に付された分類名との予め定められた対応関係、及び前記判別された前記概念語及び前記単語の各々の分類に付された分類名に基づいて、前記名詞句の前記概念語と前記単語との間の修飾関係を表わす属性情報を決定する決定手段、及び各概念語について、前記名詞句の前記概念語と前記単語との間の修飾関係を表わす属性情報として決定された前記属性の頻度又は割合に基づいて、前記概念語が表わす概念が有することができる属性を判別する判別手段として機能させるためのプログラムである。
第3の発明及び第4の発明によれば、決定手段によって、名詞である概念語と該概念語を修飾している単語とを含む複数の名詞句の各々について、分類情報に基づいて、名詞句の概念語及び単語の各々の分類に付された分類名を判別する。そして、主体が人間であること、主体が組織であること、及び主体が人間以外の生物であること、又は所有者が人間であること、所有者が組織であること、及び所有者が人間以外の生物であることを含む複数の属性と、概念語及び前記単語の各々の分類に付された分類名との予め定められた対応関係、及び判別された概念語及び前記単語の各々の分類に付された分類名に基づいて、名詞句の概念語と単語との間の修飾関係を表わす属性情報を決定する。
そして、判別手段によって、各概念語について、決定手段によって名詞句の概念語と単語との間の修飾関係を表わす属性情報として決定された属性の頻度又は割合に基づいて、概念語が表わす概念が有することができる属性を判別する。
従って、概念語が表わす概念が有しうる属性を、疑問詞との対応を考慮した、主体が人間であること、主体が組織であること、及び主体が人間以外の生物であること、又は所有者が人間であること、所有者が組織であること、及び所有者が人間以外の生物であることを含む複数の属性から判別することができ、判別された概念語の属性を用いて、適切な応答生成を行うことができる。
第3の発明に係る複数の属性は、存在場所、所属、時間、対象、道具、家族、色、及び量を更に含むことができる。これによって、概念語が表わす概念が有しうる属性の種類を、疑問詞を考慮したものとすることができる。
第1の発明に係る属性判別装置は、判別手段によって判別された概念語が表わす概念が有することができる属性に基づいて、複数の概念語の各々が表わす概念が有することができる属性が格納された属性データベースを生成する生成手段を更に含むことができる。
第3の発明に係る属性判別装置は、判別手段によって判別された概念語が表わす概念が有することができる属性に基づいて、複数の概念語の各々が表わす概念が有することができる属性が格納された属性データベースを生成する生成手段を更に含むことができる。
上記の分類情報では、第1階層の分類によって、同じ品詞の単語が同じ分類に属するように分類され、第2階層以降の分類によって、階層が深くなるに従って意味的類似関係が強くなるように定められた各階層の意味的類似関係にある単語が、該階層の同じ分類に属するように分類されている。
第5の発明に係る対話装置は、ユーザによる発話及び入力文の少なくとも一方を入力する入力手段と、入力手段によって入力された発話及び入力文の少なくとも一方の構造を解析する解析手段と、解析手段による解析結果に基づいて、発話及び入力文の少なくとも一方に含まれる概念語を抽出する抽出手段と、第1の発明に係る生成手段を含んだ属性判別装置によって生成された属性データベース又は第3の発明に係る生成手段を含んだ属性判別装置によって生成された属性データベースに基づいて、抽出手段によって抽出された概念語が表わす概念が有することができる属性を判別する属性判別手段と、属性判別手段によって判別された属性に基づいて、ユーザによる発話及び入力文の少なくとも一方に対する応答文として、該属性に関する質問文を生成する応答生成手段と、応答生成手段によって生成された応答文を出力する出力手段とを含んで構成されている。
第5の発明に係る対話装置によれば、入力手段によって、ユーザによる発話及び入力文の少なくとも一方を入力し、解析手段によって、入力手段によって入力された発話及び入力文の少なくとも一方の構造を解析し、そして、抽出手段によって、解析手段による解析結果に基づいて、発話及び入力文の少なくとも一方に含まれる概念語を抽出する。
そして、様相及び程度を含む複数の属性から概念語が表わす概念が有することができる属性を判別する属性判別装置によって生成された属性データベース、又は、主体が人間であること、主体が組織であること、及び主体が人間以外の生物であること、又は所有者が人間であること、所有者が組織であること、及び所有者が人間以外の生物であることを含む複数の属性から概念語が表わす概念が有することができる属性を判別する属性判別装置によって生成された属性データベースに基づいて、属性判別手段によって、抽出手段によって抽出された概念語が表わす概念が有することができる属性を判別する。
そして、応答生成手段によって、属性判別手段によって判別された属性に基づいて、ユーザによる発話及び入力文の少なくとも一方に対する応答文として、該属性に関する質問文を生成し、出力手段によって、応答生成手段によって生成された応答文を出力する。
従って、入力された発話又は入力文に含まれる概念語が表わす概念が有しうる属性を、疑問詞との対応を考慮した複数の属性から判別し、判別された概念語の属性に関する質問文を応答文として生成することにより、適切な応答生成を行うことができる。
以上説明したように、本発明の属性判別装置及びプログラムによれば、概念語が表わす概念が有しうる属性を、疑問詞との対応を考慮した複数の属性から判別することができ、判別された概念語の属性を用いて、適切な応答生成を行うことができる、という効果が得られる。
本発明の対話装置によれば、入力された発話又は入力文に含まれる概念語が表わす概念が有しうる属性を、疑問詞との対応を考慮した複数の属性から判別し、判別された概念語の属性に関する質問文を応答文として生成することにより、適切な応答生成を行うことができる、という効果が得られる。
以下、図面を参照して本発明の実施の形態を詳細に説明する。なお、本実施の形態では、ユーザの発話に対して音声を利用して応答する対話システムに本発明を適用した場合について説明する。
図1に示すように、本発明の実施の形態に係る対話システムは、図1に示すようなデータベース生成装置10を備えている。データベース生成装置10は、コンピュータで構成され、CPU、後述する様相程度データベース生成処理ルーチンのプログラム及び後述する属性情報データベース生成処理ルーチンのプログラムを記憶したROM、データ等を記憶するRAM、及びこれらを接続するバスを含んで構成されている。このデータベース生成装置10をハードウエアとソフトウエアとに基づいて定まる機能実現手段毎に分割した機能ブロックで説明すると、図1に示すように、テキストや発話を大規模または網羅的に集めたコーパスを格納したコーパスデータベース(コーパスDB)12と、コーパスDB12から一文ずつ抽出する文抽出部14と、文抽出部14によって抽出された一文に対して、形態素解析を行なう形態素解析部16と、形態素解析の結果に基づいて、2種類の属性情報「様相」、「程度」に関する属性情報データベースを生成する様相程度データベース生成部18と、形態素解析の結果に基づいて、「様相」、「程度」以外の14種類の属性情報に関する属性情報データベースを生成する属性情報データベース生成部20と、様相程度データベース生成部18及び属性情報データベース生成部20の各々によって生成された属性情報データベースを統合して記憶する概念属性データベース22とを備えている。
形態素解析部16は、例えば、「かっこいい自転車を買った」という一文に対して、形態素解析を行って、図2に示すような「かっこいい(形容詞)」、「自転車(名詞)」、「を(助詞)」、「買う(動詞)」、「た(助動詞)」という形態素解析結果を得る。
様相程度データベース生成部18は、形態素解析の結果から、概念語を抽出する概念語抽出部26と、単語間の意味的類似関係に応じて、複数の階層の各々の各分類によって単語を分類すると共に、各分類に分類名を付したシソーラスを記憶したシソーラス記憶部28と、抽出された概念語について、シソーラス上で属する分類に付された分類名を判別する分類名判別部30と、属性情報「様相」あるいは「程度」を持ちうるか否かを判別するためのシソーラス上の分類名で定めた判別ルールを記憶した判別ルール記憶部32と、判別ルールに従って、概念語が表わす概念が属性情報「様相」あるいは「程度」を有しうるかを判別する属性情報判別部34と、判別された属性情報を概念属性データベース22に登録する生成手段としてのデータベース登録部35とを備えている。
概念語抽出部26は、形態素解析結果に基づいて、一文から形容詞、副詞、又は名詞である単語を概念語として抽出する。
シソーラス記憶部28には、図3に示すように、複数の階層(例えば、5階層)の各々の単語間の意味的類似関係に応じて、階層状に単語を分類し、かつ、意味的類似関係に応じた分類名を各階層の各分類に付したシソーラスが記憶されており、例えば、図3(A)に示すように、単語「かっこいい」は、分類名「形容詞・副詞(第1階層)」、「関係(第2階層)」、「様相(第3階層)」、「良不良・適不適(第4階層)」が付された分類によって分類されている。また、図3(B)に示すように、単語「自転車」は、分類名「名詞(第1階層)」、「生産物(第2階層)」、「機械(第3階層)」、「乗り物(陸上)(第4階層)」が付された分類によって分類されている。本実施の形態のシソーラスの例では、上記図3で示したように、第1階層の分類によって、同じ品詞の単語が同じ分類に属するように分類され、第2階層以降の分類によって、階層が深くなるに従って意味的類似関係が強くなるように定められた各階層の意味的類似関係にある単語が、各階層の同じ分類に属するように分類されている。
分類名判別部30は、例えば、概念語「かっこいい」の分類名が、「形容詞・副詞(第1階層)」、「関係(第2階層)」、「様相(第3階層)」、「良不良・適不適(第4階層)」であると判別し、概念語「自転車」の分類名が、「名詞(第1階層)」、「生産物(第2階層)」、「機械(第3階層)」、「乗り物(陸上)(第4階層)」であると判別する。
判別ルール記憶部32には、図4に示すように、属性情報「様相」、「程度」の各々に対して分類名で定められた判別ルールが記憶されている。判別ルールは、判別対象の概念語が属性情報「様相」あるいは「程度」を有することができるときの条件を、シソーラスの分類名で定めたものであり、判別ルールに従って、各概念語が属性情報「様相」を有しうるかどうかを判別できると共に、属性情報「程度」を有しうるかどうかを判別できる。
また、属性情報判別部34は、判別ルールと、概念語について判別された分類名とに基づいて、概念語が表わす概念が有することができる属性情報を判別する。例えば、概念語「かっこいい」の分類名が「形容詞・副詞(第1階層)」であると判別されると、判別ルールに従って、概念語「かっこいい」が有することができる属性情報が「程度」であると判別される。また、概念語「自転車」の分類名が「名詞(第1階層)」及び「生産物(第2階層)」であると判別されると、概念語「自転車」が有することができる属性情報が「様相」であると判別される。そして、データベース登録部35は、図5に示すような概念語と属性情報との対応関係を、概念属性データベース22に登録する。
属性情報データベース生成部20は、「様相」、「程度」以外の14種類の属性情報「存在場所」、「所属」、「時間」、「対象」、「道具」、「家族」、「色」、「量」、「所有者(人間)」、「所有者(組織)」、「所有者(生物)」、「主体(人間)」、「主体(組織)」、「主体(生物)」に関する属性情報データベースを生成する。ここで、属性情報「所有者(人間)」は、所有者が人間であることを示し、属性情報「所有者(組織)」は、所有者が組織であることを示し、属性情報「所有者(生物)」は、所有者が人間以外の生物であることを示す。また、属性情報「主体(人間)」は、主体が人間であることを示し、属性情報「主体(組織)」は、主体が組織であることを示し、属性情報「主体(生物)」は、主体が人間以外の生物であることを示す。
また、属性情報データベース生成部20は、形態素解析結果から、名詞句「AのB」を抽出する「AのB」抽出部36と、名詞Bを修飾している名詞Aと名詞Bとの間で成立する修飾関係を表わす属性情報を解析するための修飾関係解析ルールを記憶した解析ルール記憶部38と、修飾関係解析ルールに従って、抽出された名詞句の修飾関係を表わす属性情報を解析する修飾関係解析部40と、修飾関係解析部40による解析結果の集計データを記憶する解析結果記憶部42と、コーパスに含まれる全ての文に対する解析結果の集計データに基づいて、概念語が表わす概念が有しうる属性情報を選択する属性情報選択部44と、選択された属性情報を概念属性データベース22に登録する生成手段としてのデータベース登録部46とを備えている。
「AのB」抽出部36は、図6に示すような形態素解析の結果を用いて、コーパスDB12から抽出された一文に対して、係り受け解析を行なって、図7に示すような係り受け解析結果を取得し、係り受け解析結果に基づいて、一文から名詞句「AのB」を抽出する。例えば、「僕(名詞)」、「の(助詞)」、「自転車(名詞)」、「は(助詞)」、「かっこいい(形容詞)」という形態素解析結果に基づいて、係り受け解析結果として「僕 の 自転車」、及び「自転車 は かっこいい」を得た場合には、名詞句「僕 の 自転車」が抽出される。
解析ルール記憶部38には、図8に示すように、名詞句「AのB」における名詞Aの意味的類似関係による分類に付された分類名と名詞Bの意味的類似関係による分類に付された分類名との組み合わせに対して、名詞Aと名詞Bとの間に成立する修飾関係を表わす属性情報が定められた修飾関係解析ルールが記憶されている。
修飾関係解析部40は、抽出された名詞句「AのB」について、シソーラス記憶部28に記憶されたシソーラスに基づいて、名詞Aの意味的類似関係の分類に付された分類名と名詞Bの意味的類似関係の分類に付された分類名とを判別し、修飾関係解析ルールに従って、判別された名詞A、Bの各々の分類名の組み合わせに対する修飾関係を決定する。また、解析結果として、決定された修飾関係を表わす属性情報と、概念語としての名詞Bとの対応関係が、解析結果記憶部42に記憶される。
例えば、名詞句「僕の自転車」について、名詞「僕」の分類名は「人」であり、名詞「自転車」の分類名は「具体物」であると判別されると、「人 の 具体物」という関係であり、修飾関係解析ルールに従って、修飾関係が「所有者(人間)」であると決定される。
上記の解析処理が、コーパスDB12に含まれる全ての文の形態素解析結果に基づいて行なわれ、全ての解析結果の集計データが解析結果記憶部42に記憶される。記憶された集計データは、名詞Bである概念語に対して、解析結果として出現した修飾関係を表わす属性情報の各々の出現頻度を表わしており、例えば、図9に示すように、概念語「自転車」に対して、属性情報「色」の出現頻度「353」、属性情報「所有者(人間)」の出現頻度「3803」、及び属性情報「所有者(組織)」の出現頻度「639」が、集計データとして解析結果記憶部42に記憶される。
属性情報選択部44は、解析結果記憶部42に記憶された集計データの属性情報の出現頻度に基づいて、各概念語について、14種類の属性情報から、予め定められた選択条件を満たす属性情報を、概念語が表わす概念が有しうる属性情報として選択し、データベース登録部46によって、概念語と属性情報との対応関係を概念属性データベース22に登録する。例えば、「出現頻度が100以上である」という選択条件が定められている場合、概念語「自転車」に対して、属性情報「色」、「所有者(人間)」、「所有者(組織)」、「時間」、「存在場所」、及び「量」が選択される。
上記の様相程度データベース生成部18及び属性情報データベース生成部20の各々によって、例えば、図10に示すような概念語と属性情報との対応関係が概念属性データベース22に登録され、登録された対応関係が統合されることにより、概念語と16種類の属性情報との対応関係を表わす概念属性データベース22が生成される。
概念語が表わす概念が有しうる属性情報を判別するための概念属性データベースを、仮に、人手で構築するのだとすれば、相当のコストが必要となる。なぜなら、人手で構築する際には、概念語としての名詞、形容詞、又は副詞である数十万の単語一つ一つについて、どの属性情報を有しうるかを判断していく必要があるからである。そこで、本実施の形態では、様相程度データベース生成部18及び属性情報データベース生成部20の各々によって、概念属性データベースを自動構築し、低コストでデータベース作成を行なっている。
また、本実施の形態に係る対話システムは、図11に示すような対話装置50を備えている。対話装置50は、例えばマイクロホンで構成され、かつ、ユーザ発話を集音して音声信号を生成する音声入力部52と、複数の単語が登録された認識用辞書データベース(図示省略)に登録された単語を参照して、音声入力部52から入力された音声信号に基づいて、ユーザ発話を認識する音声認識部54と、一般的な形態素解析器を用いて、認識されたユーザ発話の形態素解析を行う形態素解析部56と、複数の概念語が登録された概念語辞書データベース(図示省略)を参照して、ユーザ発話に含まれる概念語を抽出する概念抽出部58と、データベース生成装置10によって生成された概念属性データベース22と、概念属性データベース22を参照して、概念語が表わす概念が有しうる属性情報を判別する属性情報判別部60と、応答文の候補を生成するための応答候補生成ルールを記憶した応答生成ルール記憶部62と、応答生成ルール記憶部62に記憶された応答候補生成ルールを参照して、ユーザ発話に対する応答文を生成する応答生成部64と、スピーカで構成される応答発話を音声出力する音声出力部66とを備えている。
属性情報判別部60は、例えば、抽出された概念語「自転車」について、概念属性データベース22を用いて、概念語「自転車」が表わす概念が有しうる属性情報が、属性情報「様相」、「色」、「所有者(人間)」、「所有者(組織)」、「時間」、「存在場所」、及び「量」の7種類であると判別する。
応答生成ルール記憶部62には、図12に示すような16種類の属性情報の各々に対する応答生成テンプレートを定めた応答候補生成ルールが記憶されている。応答候補生成ルールでは、属性情報「様相」に対して「どんな〜なの?」、属性情報「程度」に対して「どのくらい〜なの?」、属性情報「存在場所」に対して「どこにある〜なの?」、属性情報「所属」に対して「どこの〜なの?」、属性情報「家族」に対して「誰の〜なの?」、属性情報「時間」に対して「いつの〜なの?」、属性情報「対象」に対して「何の〜なの?」、属性情報「色」に対して「何色の〜なの?」、属性情報「量」に対して「どれくらいの〜なの?」、属性情報「道具」に対して「何のための〜なの?」、属性情報「所有者(人間)」に対して「誰の〜なの?」、属性情報「所有者(組織)」に対して「どこの〜なの?」、属性情報「所有者(生物)」に対して「何の〜なの?」、属性情報「主体(人間)」に対して「誰の〜なの?」、属性情報「主体(組織)」に対して「どこの〜なの?」、属性情報「主体(生物)」に対して「何の〜なの?」が各々定められている。
応答生成部64は、応答候補生成ルールに従って、判別された概念語の属性情報の各々に対応する応答生成テンプレートを取得し、各応答生成テンプレートと抽出された概念語とを用いて、応答文の候補としての質問文を各々生成する。
次に、本実施の形態に係る対話システムの動作について説明する。まず、データベース生成装置10において、図13に示す様相程度データベース生成処理ルーチンが実行される。
ステップ100において、コーパスDB12から一文を抽出し、ステップ102において、上記ステップ100で抽出された一文に対して、形態素解析を行い、ステップ104で、形態素解析結果に基づいて、抽出された一文の中から概念語を抽出する。
そして、ステップ106において、上記ステップ104で抽出された概念語の中に、未調査の概念語があるか否かを判定し、未調査の概念語がなかった場合には、後述するステップ114へ移行するが、一方、未調査の概念語があった場合には、ステップ108において、シソーラス記憶部28に記憶されたシソーラスに基づいて、抽出された概念語の分類に付された分類名を判別する。
上記ステップ106において、例えば、「僕も自転車を買った」という一文から抽出された概念語「僕」及び「自転車」について、概念語「自転車」については既に調査済みと判定され、概念語「僕」については未調査であると判定された場合には、ステップ108以降の処理を、概念語「僕」に対してのみ行う。
そして、ステップ110において、概念語の分類に付された分類名と、属性情報「様相」及び「程度」に対する分類名に関する判別ルールとに基づいて、概念語が表わす概念が有しうる属性情報が、属性情報「様相」であるかを判別すると共に、属性情報「程度」であるかを判別する。
そして、ステップ112において、上記ステップ110で属性情報が「様相」又は「程度」であると判別された場合には、属性情報「様相」又は「程度」と概念語との対応関係を概念属性データベース22に登録する。なお、上記ステップ106で、抽出された未調査の概念語が複数存在する場合には、未調査の複数の概念語の各々について、上記ステップ108〜112を繰り返し、属性情報が「様相」又は「程度」であると判別された概念語について、属性情報「様相」又は「程度」と概念語との対応関係を概念属性データベース22に登録する。
そして、ステップ114において、コーパスDB12に記憶された全ての文について上記の処理が行われたか否かを判定し、未処理の文がある場合には、上記ステップ100へ戻り、次の一文について処理を行うが、一方、全ての文について上記の処理が行われた場合には、様相程度データベース生成処理ルーチンを終了する。
上述したように、シソーラスにおける分類名で定められ、かつ、属性情報「様相」又は「程度」を有しうるか否かを判別するための判別ルールを予め作成しておき、様相程度データベース生成処理ルーチンを実行して、属性情報「様相」又は「程度」について、任意の概念語が表わす概念が、当該属性情報を有しうるか否かを判別し、概念属性データベースを自動構築する。
次に、データベース生成装置10において、図14に示す属性情報データベース生成処理ルーチンが実行される。なお、上記の様相程度データベース生成処理ルーチンと同様の処理については同一符号を付して、詳細な説明を省略する。
まず、ステップ100において、コーパスDB12から一文(例えば、「赤の自転車なんだ」)を抽出し、ステップ102において、上記ステップ100で抽出された一文に対して、形態素解析を行い、ステップ120で、上記ステップ102による形態素解析の結果に基づいて、抽出された一文に対して、係り受け解析を行う。
そして、ステップ122において、上記ステップ120の係り受け解析の結果に基づいて、抽出された一文から、名詞句「AのB」(例えば、「赤の自転車」)を抽出し、次のステップ124で、シソーラス記憶部28に記憶されたシソーラスに基づいて、抽出された名詞句「AのB」の名詞A及び概念語としての名詞Bの各々の分類に付された分類名を判別し、ステップ126において、判別された名詞A及び名詞Bの各々の分類名と、解析ルール記憶部38に記憶された修飾関係解析ルールとに基づいて、抽出された名詞句「AのB」の修飾関係を表わす属性情報(例えば、「色」)を決定し、名詞Bを概念語として、概念語と決定された属性情報との対応関係の出現頻度を解析結果記憶部42の集計データに追加する。
そして、ステップ114において、コーパスDB12に記憶された全ての文について上記の処理が行われたか否かを判定し、未処理の文がある場合には、上記ステップ100へ戻り、次の一文について上記の処理を行うが、一方、全ての文について上記の処理が行われた場合には、ステップ128へ進む。
ステップ128では、解析結果記憶部42に記憶された集計データに基づいて、集計データに含まれる各概念語について、予め定められた選択条件(例えば、出現頻度が所定数以上であること)を満たす属性情報を、14種類の属性情報「存在場所」「所属」「時間」「対象」「道具」「家族」「色」「量」「所有者(人間)」「所有者(組織)」「所有者(生物)」「主体(人間)」「主体(組織)」「主体(生物)」から選択する。そして、次のステップ130において、各概念語について、上記ステップ128で選択された属性情報との対応関係を概念属性データベース22に登録して、属性情報データベース生成処理ルーチンを終了する。なお、上記では、出現頻度が所定数以上であることを選択条件とした場合を例に説明したが、出現頻度の割合が所定割合以上であることを選択条件としてもよい。
上述したように、「様相」及び「程度」以外の14種類の属性情報について、属性情報データベース生成処理ルーチンを実行することにより、大規模なコーパス内に出現した名詞句「AのB」における修飾関係を解析し、各名詞Bについて、出現頻度が所定数以上の修飾関係を表わす属性情報を、名詞Bである概念語が表わす概念が持ちうる属性情報として選択し、概念属性データベースを自動構築する。
上記のようにデータベース生成装置10によって概念属性データベース22を予め構築しておき、対話装置50において、図15に示す応答生成処理ルーチンを実行する。まず、ステップ150において、音声入力部52によって音声信号が入力されたか否かを判定し、音声入力部52によってユーザによる発話に応じた音声信号が生成されると、ステップ150からステップ152へ進み、認識用辞書データベースに登録された単語を参照して、入力された音声信号に基づいて、ユーザ発話(例えば、「かっこいい自転車を買おうと思っているよ」)を認識する。
そして、ステップ154では、ステップ152で認識されたユーザ発話に対して、構造の解析としての形態素解析を行い、解析結果として、図16に示すようなユーザ発話に対する品詞などの形態素情報を出力し、次のステップ156において、ステップ154の形態素解析結果及び概念語辞書データベースを参照して、ユーザ発話から、概念語辞書データベースに登録されている概念語(例えば、概念語「かっこいい」、「自転車」)を抽出する。
そして、ステップ158において、概念属性データベース22から、抽出された概念語と対応して登録されている属性情報を検索して、抽出された概念語が表わす概念が有しうる属性情報(例えば、概念語「かっこいい」に対して属性情報「程度」、概念語「自転車」に対して属性情報「様相」、「色」、「所有者(人間)」、「所有者(組織)」、「時間」、「存在場所」、「量」)を判別し、ステップ160において、上記ステップ158で判別された属性情報及び応答生成ルール記憶部62に記憶された応答生成ルールに基づいて、概念語を用いた質問文(例えば、属性情報「様相」に対する質問文「どんな自転車なの?」、属性情報「色」に対する質問文「何色の自転車なの?」、属性情報「所有者(人間)」に対する質問文「誰の自転車なの?」、属性情報「所有者(組織)」に対する質問文「どこの自転車なの?」、属性情報「時間」に対する質問文「いつの自転車なの?」、属性情報「存在場所」に対する質問文「どこにある自転車なの?」、及び属性情報「量」に対する質問文「どれくらいの自転車なの?」)を応答文の候補として生成する。なお、判別された属性情報が複数ある場合には、各属性情報について質問文を生成し、応答文の候補を複数生成する。
そして、ステップ162では、ステップ160で生成された複数の応答文の候補からランダムに選択し、ステップ164へ移行する。
なお、上記のステップ156で、ユーザ発話から複数の概念語が抽出された場合には、上記のステップ160において、抽出された概念語毎に、複数の応答文の候補を生成し、上記のステップ162において、生成された全ての応答文の候補の中からランダムに選択すればよい。
ステップ164では、ステップ162で選択された応答文を音声合成して、音声出力部66によって音声出力する。そして、ステップ166において、音声入力部52からユーザ発話の音声信号が更に入力されたか否かを判定し、更にユーザ発話が入力された場合には、ステップ152へ戻り、上記ステップ152〜ステップ164を同様に繰り返すが、ユーザ発話が無かった場合には、応答生成処理ルーチンを終了する。
以上説明したように、本発明の実施の形態に係る対話システムのデータベース生成装置によれば、予め定められた判別ルールを用いて、概念語が表わす概念が有しうる属性情報が、疑問詞との対応を考慮した属性情報「様相」又は「程度」であるかを判別して、概念属性データベースを自動構築することができる。
また、概念語が表わす概念が有しうる属性を、疑問詞との対応を考慮した「主体(人間)」、「主体(組織)」、「主体(生物)」、「所有者(人間)」、「所有者(組織)」、及び「所有者(生物)」を含む複数の属性情報から判別して、概念属性データベースを自動構築することができる。
また、対話システムの対話装置によれば、入力されたユーザ発話に含まれる概念語が表わす概念が有しうる属性情報を、疑問詞との対応を考慮した複数の属性情報から判別し、判別された概念語の属性に関する質問文を応答文として生成することにより、適切な応答生成を行うことができる。
概念属性データベースを作成する際、各概念語がどのような属性情報を有しうるかを人手で記述していくのではなく、シソーラス上での分類名で定められた判別ルールに基づいて判別し、あるいは、大規模なコーパス上に出現した各概念語に関する修飾関係を解析して判別することにより、自動処理で概念属性データベースを生成するため、概念語が有しうる属性情報を判別するための概念属性データベースを低コストで生成することが可能である。
また、属性情報「所有」について、所有者情報を考慮し、属性情報「所有」を「所有者(人間)」「所有者(組織)」「所有者(生物)」の3種類に細分化することにより、属性情報「所有」の詳細を尋ねる3種類の質問文「誰の〜」、「どこの〜」、及び「何の〜」を全て生成するのではなく、適切な応答文のみを生成することが可能である。
また、応答生成の際の適切な疑問詞との対応を考慮し、属性情報を統合し(例えば、「商品」、「こと」、「物ごと」のような3つの属性情報は、疑問詞「どんな〜」に対応する属性情報「様相」に統合される)、対象とする属性情報を16種類としているため、応答生成ルールを作成する際のコストを低くすることができる。
なお、上記の実施の形態では、応答文の候補をランダムに選択する場合を例に説明したが、文脈、状況、又はユーザのプロファイルに基づいて、応答文の候補を選択してもよい。
また、スピーカによる音声出力を行う場合を例に説明したが、これに限定されるものではなく、ディスプレイに応答文を表示するようにしてもよい。
また、ユーザから音声がマイクロホンに入力される場合を例に説明したが、ユーザがキーボードなどを用いて入力文としてのテキストを入力するようにしてもよい。
また、16種類の属性情報から、概念語の属性情報を判別する場合を例に説明したが、これに限定されるものではなく、「様相」及び「程度」、「所有者(人間)」、「所有者(組織)」、及び「所有者(生物)」、ならびに「主体(人間)」、「主体(組織)」、及び「主体(生物)」のいずれかを含んでいる複数種類の属性情報であれば、他の種類の属性情報を含む組み合わせであってもよい。
本発明の実施の形態に係る対話システムのデータベース生成装置の構成を示す概略図である。 形態素解析の結果を示すイメージ図である。 シソーラスの内容を示すイメージ図である。 判別ルールの例を示す表である。 概念属性データベースに登録される概念語と属性情報との対応関係を示す表である。 形態素解析の結果を示すイメージ図である。 係り受け解析の結果を示すイメージ図である。 修飾関係解析ルールの例を示す表である。 解析結果の集計データの例を示す表である。 概念属性データベースに登録される概念語と属性情報との対応関係を示す表である。 本発明の実施の形態に係る対話システムの対話装置の構成を示す概略図である。 応答候補生成ルールの例を示す表である。 本発明の実施の形態に係るデータベース生成装置における様相程度データベース生成処理ルーチンの内容を示すイメージ図である。 本発明の実施の形態に係るデータベース生成装置における属性情報データベース生成処理ルーチンの内容を示すイメージ図である。 本発明の実施の形態に係る対話装置における応答生成処理ルーチンの内容を示すイメージ図である。 形態素解析の結果を示すイメージ図である。
符号の説明
10 データベース生成装置
12 コーパスDB
16、56 形態素解析部
18 様相程度データベース生成部
20 属性情報データベース生成部
22 概念属性データベース
26 概念語抽出部
28 シソーラス記憶部
30 分類名判別部
32 判別ルール記憶部
34、60 属性情報判別部
35、50 データベース登録部
36 「AのB」抽出部
38 解析ルール記憶部
40 修飾関係解析部
42 解析結果記憶部
44 属性情報選択部
46 データベース登録部
52 音声入力部
54 音声認識部
58 概念抽出部
62 応答生成ルール記憶部
64 応答生成部
66 音声出力部

Claims (10)

  1. 複数の階層の各々の単語間の意味的類似関係に応じて、階層状に単語を分類し、かつ、前記意味的類似関係に応じた分類名を各階層の各分類に付した分類情報を記憶した記憶手段と、
    前記分類情報に基づいて定まる判別対象の概念語の分類に付された分類名と、様相及び程度を含む複数の属性の各々に対して予め定められた前記属性を判別するための前記分類名に関する判別条件とに基づいて、前記判別対象の概念語が表わす概念が有することができる前記属性を判別する判別手段と、
    を含む属性判別装置。
  2. 前記概念語の品詞を、名詞、形容詞、及び副詞の3種類とした請求項1記載の属性判別装置。
  3. 複数の階層の各々の単語間の意味的類似関係に応じて、階層状に単語を分類し、かつ、前記意味的類似関係に応じた分類名を各階層の各分類に付した分類情報を記憶した記憶手段と、
    名詞である概念語と該概念語を修飾している単語とを含む複数の名詞句の各々について、前記分類情報に基づいて、前記名詞句の前記概念語及び前記単語の各々の分類に付された分類名を判別し、主体が人間であること、主体が組織であること、及び主体が人間以外の生物であること、又は所有者が人間であること、所有者が組織であること、及び所有者が人間以外の生物であることを含む複数の属性と、前記概念語及び前記単語の各々の分類に付された分類名との予め定められた対応関係、及び前記判別された前記概念語及び前記単語の各々の分類に付された分類名に基づいて、前記名詞句の前記概念語と前記単語との間の修飾関係を表わす属性情報を決定する決定手段と、
    各概念語について、前記決定手段によって前記名詞句の前記概念語と前記単語との間の修飾関係を表わす属性情報として決定された前記属性の頻度又は割合に基づいて、前記概念語が表わす概念が有することができる属性を判別する判別手段と、
    を含む属性判別装置。
  4. 前記複数の属性は、存在場所、所属、時間、対象、道具、家族、色、及び量を更に含む請求項3記載の属性判別装置。
  5. 前記判別手段によって判別された前記概念語が表わす概念が有することができる属性に基づいて、複数の概念語の各々が表わす概念が有することができる属性が格納された属性データベースを生成する生成手段を更に含む請求項1又は2記載の属性判別装置。
  6. 前記判別手段によって判別された前記概念語が表わす概念が有することができる属性に基づいて、複数の概念語の各々が表わす概念が有することができる属性が格納された属性データベースを生成する生成手段を更に含む請求項3又は4記載の属性判別装置。
  7. 前記分類情報では、第1階層の分類によって、同じ品詞の単語が同じ分類に属するように分類され、第2階層以降の分類によって、階層が深くなるに従って意味的類似関係が強くなるように定められた各階層の前記意味的類似関係にある単語が、該階層の同じ分類に属するように分類されている請求項1〜請求項6の何れか1項記載の属性判別装置。
  8. ユーザによる発話及び入力文の少なくとも一方を入力する入力手段と、
    前記入力手段によって入力された前記発話及び入力文の少なくとも一方の構造を解析する解析手段と、
    前記解析手段による解析結果に基づいて、前記発話及び入力文の少なくとも一方に含まれる概念語を抽出する抽出手段と、
    請求項5記載の属性判別装置によって生成された属性データベース又は請求項6記載の属性判別装置によって生成された属性データベースに基づいて、前記抽出手段によって抽出された概念語の属性を判別する属性判別手段と、
    前記属性判別手段によって判別された属性に基づいて、前記ユーザによる発話及び入力文の少なくとも一方に対する応答文として、該属性に関する質問文を生成する応答生成手段と、
    前記応答生成手段によって生成された応答文を出力する出力手段と、
    を含む対話装置。
  9. コンピュータを、
    複数の階層の各々の単語間の意味的類似関係に応じて、階層状に単語を分類し、かつ、前記意味的類似関係に応じた分類名を各階層の各分類に付した分類情報を記憶した記憶手段に記憶された前記分類情報に基づいて定まる判別対象の概念語の分類に付された分類名と、様相及び程度を含む複数の属性の各々に対して予め定められた前記属性を判別するための前記分類名に関する判別条件とに基づいて、前記判別対象の概念語が表わす概念が有することができる前記属性を判別する判別手段
    として機能させるためのプログラム。
  10. コンピュータを、
    名詞である概念語と該概念語を修飾している単語とを含む複数の名詞句の各々について、複数の階層の各々の単語間の意味的類似関係に応じて、階層状に単語を分類し、かつ、前記意味的類似関係に応じた分類名を各階層の各分類に付した分類情報を記憶した記憶手段に記憶された前記分類情報に基づいて、前記名詞句の前記概念語及び前記単語の各々の分類に付された分類名を判別し、主体が人間であること、主体が組織であること、及び主体が人間以外の生物であること、又は所有者が人間であること、所有者が組織であること、及び所有者が人間以外の生物であることを含む複数の属性と、前記概念語及び前記単語の各々の分類に付された分類名との予め定められた対応関係、及び前記判別された前記概念語及び前記単語の各々の分類に付された分類名に基づいて、記名詞句の前記概念語と前記単語との間の修飾関係を表わす属性情報を決定する決定手段、及び
    各概念語について、前記決定手段によって前記名詞句の前記概念語と前記単語との間の修飾関係を表わす属性情報として決定された前記属性の頻度又は割合に基づいて、前記概念語が表わす概念が有することができる属性を判別する判別手段
    として機能させるためのプログラム。
JP2007165615A 2007-06-22 2007-06-22 属性判別装置、対話装置、及びプログラム Pending JP2009003811A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007165615A JP2009003811A (ja) 2007-06-22 2007-06-22 属性判別装置、対話装置、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007165615A JP2009003811A (ja) 2007-06-22 2007-06-22 属性判別装置、対話装置、及びプログラム

Publications (1)

Publication Number Publication Date
JP2009003811A true JP2009003811A (ja) 2009-01-08

Family

ID=40320111

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007165615A Pending JP2009003811A (ja) 2007-06-22 2007-06-22 属性判別装置、対話装置、及びプログラム

Country Status (1)

Country Link
JP (1) JP2009003811A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010224608A (ja) * 2009-03-19 2010-10-07 Toyota Central R&D Labs Inc 応答生成装置及びプログラム
JP2013025648A (ja) * 2011-07-22 2013-02-04 Toshiba Corp 対話装置、対話方法および対話プログラム
JP2013072887A (ja) * 2011-09-26 2013-04-22 Toshiba Corp 対話装置
KR101841615B1 (ko) * 2016-02-05 2018-03-26 한국과학기술원 의미 기반 명사 유사도 계산 장치 및 방법

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010224608A (ja) * 2009-03-19 2010-10-07 Toyota Central R&D Labs Inc 応答生成装置及びプログラム
JP2013025648A (ja) * 2011-07-22 2013-02-04 Toshiba Corp 対話装置、対話方法および対話プログラム
JP2013072887A (ja) * 2011-09-26 2013-04-22 Toshiba Corp 対話装置
KR101841615B1 (ko) * 2016-02-05 2018-03-26 한국과학기술원 의미 기반 명사 유사도 계산 장치 및 방법

Similar Documents

Publication Publication Date Title
RU2665239C2 (ru) Автоматическое извлечение именованных сущностей из текста
JP6310150B2 (ja) 意図理解装置、方法およびプログラム
KR101136007B1 (ko) 문서 감성 분석 시스템 및 그 방법
WO2010038540A1 (ja) テキストセグメントを有する文書から用語を抽出するためのシステム
US20120158400A1 (en) Methods and systems for knowledge discovery
RU2601166C2 (ru) Разрешение анафоры на основе технологии глубинного анализа
JP2005165958A (ja) 情報検索システム、情報検索支援システム及びその方法並びにプログラム
Fedotov et al. Classification model and morphological analysis in multilingual scientific and educational information systems
RU2640718C1 (ru) Верификация атрибутов информационных объектов
CN114997288A (zh) 一种设计资源关联方法
Palagin et al. Distributional semantic modeling: A revised technique to train term/word vector space models applying the ontology-related approach
CN113361252B (zh) 基于多模态特征和情感词典的文本抑郁倾向检测系统
JP2009003811A (ja) 属性判別装置、対話装置、及びプログラム
JP2001075964A (ja) 情報処理装置および情報処理方法、並びに記録媒体
CN112071304B (zh) 一种语意分析方法及装置
Vasuki Design of Hierarchical Classifier to Improve Speech Emotion Recognition.
KR102518895B1 (ko) 바이오 정보 분석 방법 및 이를 수행하기 위한 프로그램을 저장하는 저장 매체
JP2021193608A (ja) 発話生成装置、発話生成方法、及びコンピュータプログラム
JP5744150B2 (ja) 発話生成装置、方法、及びプログラム
Park et al. Towards ontologies on demand
Keizer et al. Dialogue act recognition under uncertainty using Bayesian networks
Siddiqui Sarcasm detection from Twitter database using text mining algorithms
JP2005025555A (ja) シソーラス構築システム、シソーラス構築方法、この方法を実行するプログラム、およびこのプログラムを記憶した記憶媒体
JP5245291B2 (ja) 文書解析装置、および文書解析方法、並びにコンピュータ・プログラム
Li et al. Research on Chorus Emotion Recognition and Intelligent Medical Application Based on Health Big Data