JP2009003811A

JP2009003811A - 属性判別装置、対話装置、及びプログラム

Info

Publication number: JP2009003811A
Application number: JP2007165615A
Authority: JP
Inventors: Kazuya Shimooka; 和也下岡
Original assignee: Toyota Central R&D Labs Inc
Current assignee: Toyota Central R&D Labs Inc
Priority date: 2007-06-22
Filing date: 2007-06-22
Publication date: 2009-01-08

Abstract

【課題】概念語が表わす概念が有しうる属性として、疑問詞との対応を考慮した属性を判別し、適切な応答生成が行なえるようにする。
【解決手段】様相程度データベース生成部１８によって、シソーラスに基づいて定まる概念語の分類名と、属性情報「様相」及び「程度」の各々に対して予め定められた判別ルールとに基づいて、概念語が表わす概念が有することができる属性情報を判別する。また、属性情報データベース生成部２０によって、名詞句「ＡのＢ」について、属性情報「主体（人間）」、「主体（組織）」、及び「主体（生物）」、「所有者（人間）」、「所有者（組織）」、及び「所有者（生物）」を含む複数の属性情報によって表わされる修飾関係を解析するための修飾関係解析ルールに基づいて、概念語である名詞Ａの属性情報を決定し、属性情報の出現頻度に基づいて、概念語の属性情報を判別する。
【選択図】図１

Description

本発明は、属性判別装置、対話装置、及びプログラムに係り、特に、概念語が表わす概念が有しうる属性を判別する属性判別装置、ユーザによる発話又は入力文に応答して対話する対話装置、及びプログラムに関する。

従来より、ある名詞がどのような属性情報を持ちうるかに関するデータベースを自動構築する手法が知られている（例えば、非特許文献１）。具体的には、大規模なコーパス内に出現した名詞句「ＡのＢ」における修飾関係を解析し、各名詞Ｂについて、出現した頻度が一定の割合以上の修飾関係を、名詞Ｂが持ちうる属性情報と判断して、データベースを自動構築している。
笹野遼平、河原大輔、黒橋禎夫「名詞格フレーム辞書の自動構築とそれを用いた名詞句の関係解析」自然言語処理、Ｖｏｌ１２、Ｎｏ．３、ｐｐ１２９−１４４、２００５

しかしながら、上記の非特許文献１に記載の技術では、名詞が持ちうる属性情報の種類を、応答生成に適した種類に統合及び細分化していないため、属性情報を用いて適切な応答生成を行うことができない、という問題がある。例えば、名詞が持ちうる属性情報として「所有」が含まれているが、所有者に関する情報が考慮されていないため、属性情報「所有」に関する応答生成を行う際、疑問詞「誰」、「どこ」、「何」のうち、どの疑問詞を応答生成に用いるのが適切なのかを判断することができない。

また、上記の非特許文献１に記載の技術では、属性情報「商品」、「こと」、「物ごと」といったように、細かい分類の属性情報が考えられているが、これらの属性情報に関する応答を生成するためには、複数の疑問詞の何れを用いて応答生成するかを判断するための応答生成ルール（「商品−何のｏｒどんな」、「こと−何のｏｒどんな」、「物ごと−何ｏｒどんな」）を、それぞれ個別に用意しておく必要があり、属性情報と疑問詞との対応付けのコストが高くなってしまう、という問題がある。

本発明は、上記の問題点を解決するためになされたもので、概念語が表わす概念が有しうる属性として、疑問詞との対応を考慮した属性を判別し、適切な応答生成が行なえるようにする属性判別装置、対話装置、及びプログラムを提供することを目的とする。

上記の目的を達成するために第１の発明に係る属性判別装置は、複数の階層の各々の単語間の意味的類似関係に応じて、階層状に単語を分類し、かつ、前記意味的類似関係に応じた分類名を各階層の各分類に付した分類情報を記憶した記憶手段と、前記分類情報に基づいて定まる判別対象の概念語の分類に付された分類名と、様相及び程度を含む複数の属性の各々に対して予め定められた前記属性を判別するための前記分類名に関する判別条件とに基づいて、前記判別対象の概念語が表わす概念が有することができる前記属性を判別する判別手段とを含んで構成されている。

第２の発明に係るプログラムは、コンピュータを、複数の階層の各々の単語間の意味的類似関係に応じて、階層状に単語を分類し、かつ、前記意味的類似関係に応じた分類名を各階層の各分類に付した分類情報を記憶した記憶手段に記憶された前記分類情報に基づいて定まる判別対象の概念語の分類に付された分類名と、様相及び程度を含む複数の属性の各々に対して予め定められた前記属性を判別するための前記分類名に関する判別条件とに基づいて、前記判別対象の概念語が表わす概念が有することができる前記属性を判別する判別手段として機能させるためのプログラムである。

第１の発明及び第２の発明によれば、判別手段によって、分類情報に基づいて定まる判別対象の概念語の分類に付された分類名と、様相及び程度を含む複数の属性の各々に対して予め定められた判別条件とに基づいて、判別対象の概念語が表わす概念が有することができる属性を判別する。

従って、概念語が表わす概念が有しうる属性を、疑問詞との対応を考慮した様相及び程度を含む複数の属性から判別することができ、判別された概念語の属性を用いて、適切な応答生成を行うことができる。

ここで、概念語の品詞を、名詞、形容詞、及び副詞の３種類とすることができる。

第３の発明に係る属性判別装置は、複数の階層の各々の単語間の意味的類似関係に応じて、階層状に単語を分類し、かつ、前記意味的類似関係に応じた分類名を各階層の各分類に付した分類情報を記憶した記憶手段と、名詞である概念語と該概念語を修飾している単語とを含む複数の名詞句の各々について、前記分類情報に基づいて、前記名詞句の前記概念語及び前記単語の各々の分類に付された分類名を判別し、主体が人間であること、主体が組織であること、及び主体が人間以外の生物であること、又は所有者が人間であること、所有者が組織であること、及び所有者が人間以外の生物であることを含む複数の属性と、前記概念語及び前記単語の各々の分類に付された分類名との予め定められた対応関係、及び前記判別された前記概念語及び前記単語の各々の分類に付された分類名に基づいて、前記名詞句の前記概念語と前記単語との間の修飾関係を表わす属性情報を決定する決定手段と、各概念語について、前記決定手段によって前記名詞句の前記概念語と前記単語との間の修飾関係を表わす属性情報として決定された前記属性の頻度又は割合に基づいて、前記概念語が表わす概念が有することができる属性を判別する判別手段とを含んで構成されている。

第４の発明に係るプログラムは、コンピュータを、名詞である概念語と該概念語を修飾している単語とを含む複数の名詞句の各々について、複数の階層の各々の単語間の意味的類似関係に応じて、階層状に単語を分類し、かつ、前記意味的類似関係に応じた分類名を各階層の各分類に付した分類情報を記憶した記憶手段に記憶された前記分類情報に基づいて、前記名詞句の前記概念語及び前記単語の各々の分類に付された分類名を判別し、主体が人間であること、主体が組織であること、及び主体が人間以外の生物であること、又は所有者が人間であること、所有者が組織であること、及び所有者が人間以外の生物であることを含む複数の属性と、前記概念語及び前記単語の各々の分類に付された分類名との予め定められた対応関係、及び前記判別された前記概念語及び前記単語の各々の分類に付された分類名に基づいて、前記名詞句の前記概念語と前記単語との間の修飾関係を表わす属性情報を決定する決定手段、及び各概念語について、前記名詞句の前記概念語と前記単語との間の修飾関係を表わす属性情報として決定された前記属性の頻度又は割合に基づいて、前記概念語が表わす概念が有することができる属性を判別する判別手段として機能させるためのプログラムである。

第３の発明及び第４の発明によれば、決定手段によって、名詞である概念語と該概念語を修飾している単語とを含む複数の名詞句の各々について、分類情報に基づいて、名詞句の概念語及び単語の各々の分類に付された分類名を判別する。そして、主体が人間であること、主体が組織であること、及び主体が人間以外の生物であること、又は所有者が人間であること、所有者が組織であること、及び所有者が人間以外の生物であることを含む複数の属性と、概念語及び前記単語の各々の分類に付された分類名との予め定められた対応関係、及び判別された概念語及び前記単語の各々の分類に付された分類名に基づいて、名詞句の概念語と単語との間の修飾関係を表わす属性情報を決定する。

そして、判別手段によって、各概念語について、決定手段によって名詞句の概念語と単語との間の修飾関係を表わす属性情報として決定された属性の頻度又は割合に基づいて、概念語が表わす概念が有することができる属性を判別する。

従って、概念語が表わす概念が有しうる属性を、疑問詞との対応を考慮した、主体が人間であること、主体が組織であること、及び主体が人間以外の生物であること、又は所有者が人間であること、所有者が組織であること、及び所有者が人間以外の生物であることを含む複数の属性から判別することができ、判別された概念語の属性を用いて、適切な応答生成を行うことができる。

第３の発明に係る複数の属性は、存在場所、所属、時間、対象、道具、家族、色、及び量を更に含むことができる。これによって、概念語が表わす概念が有しうる属性の種類を、疑問詞を考慮したものとすることができる。

第１の発明に係る属性判別装置は、判別手段によって判別された概念語が表わす概念が有することができる属性に基づいて、複数の概念語の各々が表わす概念が有することができる属性が格納された属性データベースを生成する生成手段を更に含むことができる。

第３の発明に係る属性判別装置は、判別手段によって判別された概念語が表わす概念が有することができる属性に基づいて、複数の概念語の各々が表わす概念が有することができる属性が格納された属性データベースを生成する生成手段を更に含むことができる。

上記の分類情報では、第１階層の分類によって、同じ品詞の単語が同じ分類に属するように分類され、第２階層以降の分類によって、階層が深くなるに従って意味的類似関係が強くなるように定められた各階層の意味的類似関係にある単語が、該階層の同じ分類に属するように分類されている。

第５の発明に係る対話装置は、ユーザによる発話及び入力文の少なくとも一方を入力する入力手段と、入力手段によって入力された発話及び入力文の少なくとも一方の構造を解析する解析手段と、解析手段による解析結果に基づいて、発話及び入力文の少なくとも一方に含まれる概念語を抽出する抽出手段と、第１の発明に係る生成手段を含んだ属性判別装置によって生成された属性データベース又は第３の発明に係る生成手段を含んだ属性判別装置によって生成された属性データベースに基づいて、抽出手段によって抽出された概念語が表わす概念が有することができる属性を判別する属性判別手段と、属性判別手段によって判別された属性に基づいて、ユーザによる発話及び入力文の少なくとも一方に対する応答文として、該属性に関する質問文を生成する応答生成手段と、応答生成手段によって生成された応答文を出力する出力手段とを含んで構成されている。

第５の発明に係る対話装置によれば、入力手段によって、ユーザによる発話及び入力文の少なくとも一方を入力し、解析手段によって、入力手段によって入力された発話及び入力文の少なくとも一方の構造を解析し、そして、抽出手段によって、解析手段による解析結果に基づいて、発話及び入力文の少なくとも一方に含まれる概念語を抽出する。

そして、様相及び程度を含む複数の属性から概念語が表わす概念が有することができる属性を判別する属性判別装置によって生成された属性データベース、又は、主体が人間であること、主体が組織であること、及び主体が人間以外の生物であること、又は所有者が人間であること、所有者が組織であること、及び所有者が人間以外の生物であることを含む複数の属性から概念語が表わす概念が有することができる属性を判別する属性判別装置によって生成された属性データベースに基づいて、属性判別手段によって、抽出手段によって抽出された概念語が表わす概念が有することができる属性を判別する。

そして、応答生成手段によって、属性判別手段によって判別された属性に基づいて、ユーザによる発話及び入力文の少なくとも一方に対する応答文として、該属性に関する質問文を生成し、出力手段によって、応答生成手段によって生成された応答文を出力する。

従って、入力された発話又は入力文に含まれる概念語が表わす概念が有しうる属性を、疑問詞との対応を考慮した複数の属性から判別し、判別された概念語の属性に関する質問文を応答文として生成することにより、適切な応答生成を行うことができる。

以上説明したように、本発明の属性判別装置及びプログラムによれば、概念語が表わす概念が有しうる属性を、疑問詞との対応を考慮した複数の属性から判別することができ、判別された概念語の属性を用いて、適切な応答生成を行うことができる、という効果が得られる。

本発明の対話装置によれば、入力された発話又は入力文に含まれる概念語が表わす概念が有しうる属性を、疑問詞との対応を考慮した複数の属性から判別し、判別された概念語の属性に関する質問文を応答文として生成することにより、適切な応答生成を行うことができる、という効果が得られる。

以下、図面を参照して本発明の実施の形態を詳細に説明する。なお、本実施の形態では、ユーザの発話に対して音声を利用して応答する対話システムに本発明を適用した場合について説明する。

図１に示すように、本発明の実施の形態に係る対話システムは、図１に示すようなデータベース生成装置１０を備えている。データベース生成装置１０は、コンピュータで構成され、ＣＰＵ、後述する様相程度データベース生成処理ルーチンのプログラム及び後述する属性情報データベース生成処理ルーチンのプログラムを記憶したＲＯＭ、データ等を記憶するＲＡＭ、及びこれらを接続するバスを含んで構成されている。このデータベース生成装置１０をハードウエアとソフトウエアとに基づいて定まる機能実現手段毎に分割した機能ブロックで説明すると、図１に示すように、テキストや発話を大規模または網羅的に集めたコーパスを格納したコーパスデータベース（コーパスＤＢ）１２と、コーパスＤＢ１２から一文ずつ抽出する文抽出部１４と、文抽出部１４によって抽出された一文に対して、形態素解析を行なう形態素解析部１６と、形態素解析の結果に基づいて、２種類の属性情報「様相」、「程度」に関する属性情報データベースを生成する様相程度データベース生成部１８と、形態素解析の結果に基づいて、「様相」、「程度」以外の１４種類の属性情報に関する属性情報データベースを生成する属性情報データベース生成部２０と、様相程度データベース生成部１８及び属性情報データベース生成部２０の各々によって生成された属性情報データベースを統合して記憶する概念属性データベース２２とを備えている。

形態素解析部１６は、例えば、「かっこいい自転車を買った」という一文に対して、形態素解析を行って、図２に示すような「かっこいい（形容詞）」、「自転車（名詞）」、「を（助詞）」、「買う（動詞）」、「た（助動詞）」という形態素解析結果を得る。

様相程度データベース生成部１８は、形態素解析の結果から、概念語を抽出する概念語抽出部２６と、単語間の意味的類似関係に応じて、複数の階層の各々の各分類によって単語を分類すると共に、各分類に分類名を付したシソーラスを記憶したシソーラス記憶部２８と、抽出された概念語について、シソーラス上で属する分類に付された分類名を判別する分類名判別部３０と、属性情報「様相」あるいは「程度」を持ちうるか否かを判別するためのシソーラス上の分類名で定めた判別ルールを記憶した判別ルール記憶部３２と、判別ルールに従って、概念語が表わす概念が属性情報「様相」あるいは「程度」を有しうるかを判別する属性情報判別部３４と、判別された属性情報を概念属性データベース２２に登録する生成手段としてのデータベース登録部３５とを備えている。

概念語抽出部２６は、形態素解析結果に基づいて、一文から形容詞、副詞、又は名詞である単語を概念語として抽出する。

シソーラス記憶部２８には、図３に示すように、複数の階層（例えば、５階層）の各々の単語間の意味的類似関係に応じて、階層状に単語を分類し、かつ、意味的類似関係に応じた分類名を各階層の各分類に付したシソーラスが記憶されており、例えば、図３（Ａ）に示すように、単語「かっこいい」は、分類名「形容詞・副詞（第１階層）」、「関係（第２階層）」、「様相（第３階層）」、「良不良・適不適（第４階層）」が付された分類によって分類されている。また、図３（Ｂ）に示すように、単語「自転車」は、分類名「名詞（第１階層）」、「生産物（第２階層）」、「機械（第３階層）」、「乗り物（陸上）（第４階層）」が付された分類によって分類されている。本実施の形態のシソーラスの例では、上記図３で示したように、第１階層の分類によって、同じ品詞の単語が同じ分類に属するように分類され、第２階層以降の分類によって、階層が深くなるに従って意味的類似関係が強くなるように定められた各階層の意味的類似関係にある単語が、各階層の同じ分類に属するように分類されている。

分類名判別部３０は、例えば、概念語「かっこいい」の分類名が、「形容詞・副詞（第１階層）」、「関係（第２階層）」、「様相（第３階層）」、「良不良・適不適（第４階層）」であると判別し、概念語「自転車」の分類名が、「名詞（第１階層）」、「生産物（第２階層）」、「機械（第３階層）」、「乗り物（陸上）（第４階層）」であると判別する。

判別ルール記憶部３２には、図４に示すように、属性情報「様相」、「程度」の各々に対して分類名で定められた判別ルールが記憶されている。判別ルールは、判別対象の概念語が属性情報「様相」あるいは「程度」を有することができるときの条件を、シソーラスの分類名で定めたものであり、判別ルールに従って、各概念語が属性情報「様相」を有しうるかどうかを判別できると共に、属性情報「程度」を有しうるかどうかを判別できる。

また、属性情報判別部３４は、判別ルールと、概念語について判別された分類名とに基づいて、概念語が表わす概念が有することができる属性情報を判別する。例えば、概念語「かっこいい」の分類名が「形容詞・副詞（第１階層）」であると判別されると、判別ルールに従って、概念語「かっこいい」が有することができる属性情報が「程度」であると判別される。また、概念語「自転車」の分類名が「名詞（第１階層）」及び「生産物（第２階層）」であると判別されると、概念語「自転車」が有することができる属性情報が「様相」であると判別される。そして、データベース登録部３５は、図５に示すような概念語と属性情報との対応関係を、概念属性データベース２２に登録する。

属性情報データベース生成部２０は、「様相」、「程度」以外の１４種類の属性情報「存在場所」、「所属」、「時間」、「対象」、「道具」、「家族」、「色」、「量」、「所有者（人間）」、「所有者（組織）」、「所有者（生物）」、「主体（人間）」、「主体（組織）」、「主体（生物）」に関する属性情報データベースを生成する。ここで、属性情報「所有者（人間）」は、所有者が人間であることを示し、属性情報「所有者（組織）」は、所有者が組織であることを示し、属性情報「所有者（生物）」は、所有者が人間以外の生物であることを示す。また、属性情報「主体（人間）」は、主体が人間であることを示し、属性情報「主体（組織）」は、主体が組織であることを示し、属性情報「主体（生物）」は、主体が人間以外の生物であることを示す。

また、属性情報データベース生成部２０は、形態素解析結果から、名詞句「ＡのＢ」を抽出する「ＡのＢ」抽出部３６と、名詞Ｂを修飾している名詞Ａと名詞Ｂとの間で成立する修飾関係を表わす属性情報を解析するための修飾関係解析ルールを記憶した解析ルール記憶部３８と、修飾関係解析ルールに従って、抽出された名詞句の修飾関係を表わす属性情報を解析する修飾関係解析部４０と、修飾関係解析部４０による解析結果の集計データを記憶する解析結果記憶部４２と、コーパスに含まれる全ての文に対する解析結果の集計データに基づいて、概念語が表わす概念が有しうる属性情報を選択する属性情報選択部４４と、選択された属性情報を概念属性データベース２２に登録する生成手段としてのデータベース登録部４６とを備えている。

「ＡのＢ」抽出部３６は、図６に示すような形態素解析の結果を用いて、コーパスＤＢ１２から抽出された一文に対して、係り受け解析を行なって、図７に示すような係り受け解析結果を取得し、係り受け解析結果に基づいて、一文から名詞句「ＡのＢ」を抽出する。例えば、「僕（名詞）」、「の（助詞）」、「自転車（名詞）」、「は（助詞）」、「かっこいい（形容詞）」という形態素解析結果に基づいて、係り受け解析結果として「僕の自転車」、及び「自転車はかっこいい」を得た場合には、名詞句「僕の自転車」が抽出される。

解析ルール記憶部３８には、図８に示すように、名詞句「ＡのＢ」における名詞Ａの意味的類似関係による分類に付された分類名と名詞Ｂの意味的類似関係による分類に付された分類名との組み合わせに対して、名詞Ａと名詞Ｂとの間に成立する修飾関係を表わす属性情報が定められた修飾関係解析ルールが記憶されている。

修飾関係解析部４０は、抽出された名詞句「ＡのＢ」について、シソーラス記憶部２８に記憶されたシソーラスに基づいて、名詞Ａの意味的類似関係の分類に付された分類名と名詞Ｂの意味的類似関係の分類に付された分類名とを判別し、修飾関係解析ルールに従って、判別された名詞Ａ、Ｂの各々の分類名の組み合わせに対する修飾関係を決定する。また、解析結果として、決定された修飾関係を表わす属性情報と、概念語としての名詞Ｂとの対応関係が、解析結果記憶部４２に記憶される。

例えば、名詞句「僕の自転車」について、名詞「僕」の分類名は「人」であり、名詞「自転車」の分類名は「具体物」であると判別されると、「人の具体物」という関係であり、修飾関係解析ルールに従って、修飾関係が「所有者（人間）」であると決定される。

上記の解析処理が、コーパスＤＢ１２に含まれる全ての文の形態素解析結果に基づいて行なわれ、全ての解析結果の集計データが解析結果記憶部４２に記憶される。記憶された集計データは、名詞Ｂである概念語に対して、解析結果として出現した修飾関係を表わす属性情報の各々の出現頻度を表わしており、例えば、図９に示すように、概念語「自転車」に対して、属性情報「色」の出現頻度「３５３」、属性情報「所有者（人間）」の出現頻度「３８０３」、及び属性情報「所有者（組織）」の出現頻度「６３９」が、集計データとして解析結果記憶部４２に記憶される。

属性情報選択部４４は、解析結果記憶部４２に記憶された集計データの属性情報の出現頻度に基づいて、各概念語について、１４種類の属性情報から、予め定められた選択条件を満たす属性情報を、概念語が表わす概念が有しうる属性情報として選択し、データベース登録部４６によって、概念語と属性情報との対応関係を概念属性データベース２２に登録する。例えば、「出現頻度が１００以上である」という選択条件が定められている場合、概念語「自転車」に対して、属性情報「色」、「所有者（人間）」、「所有者（組織）」、「時間」、「存在場所」、及び「量」が選択される。

上記の様相程度データベース生成部１８及び属性情報データベース生成部２０の各々によって、例えば、図１０に示すような概念語と属性情報との対応関係が概念属性データベース２２に登録され、登録された対応関係が統合されることにより、概念語と１６種類の属性情報との対応関係を表わす概念属性データベース２２が生成される。

概念語が表わす概念が有しうる属性情報を判別するための概念属性データベースを、仮に、人手で構築するのだとすれば、相当のコストが必要となる。なぜなら、人手で構築する際には、概念語としての名詞、形容詞、又は副詞である数十万の単語一つ一つについて、どの属性情報を有しうるかを判断していく必要があるからである。そこで、本実施の形態では、様相程度データベース生成部１８及び属性情報データベース生成部２０の各々によって、概念属性データベースを自動構築し、低コストでデータベース作成を行なっている。

また、本実施の形態に係る対話システムは、図１１に示すような対話装置５０を備えている。対話装置５０は、例えばマイクロホンで構成され、かつ、ユーザ発話を集音して音声信号を生成する音声入力部５２と、複数の単語が登録された認識用辞書データベース（図示省略）に登録された単語を参照して、音声入力部５２から入力された音声信号に基づいて、ユーザ発話を認識する音声認識部５４と、一般的な形態素解析器を用いて、認識されたユーザ発話の形態素解析を行う形態素解析部５６と、複数の概念語が登録された概念語辞書データベース（図示省略）を参照して、ユーザ発話に含まれる概念語を抽出する概念抽出部５８と、データベース生成装置１０によって生成された概念属性データベース２２と、概念属性データベース２２を参照して、概念語が表わす概念が有しうる属性情報を判別する属性情報判別部６０と、応答文の候補を生成するための応答候補生成ルールを記憶した応答生成ルール記憶部６２と、応答生成ルール記憶部６２に記憶された応答候補生成ルールを参照して、ユーザ発話に対する応答文を生成する応答生成部６４と、スピーカで構成される応答発話を音声出力する音声出力部６６とを備えている。

属性情報判別部６０は、例えば、抽出された概念語「自転車」について、概念属性データベース２２を用いて、概念語「自転車」が表わす概念が有しうる属性情報が、属性情報「様相」、「色」、「所有者（人間）」、「所有者（組織）」、「時間」、「存在場所」、及び「量」の７種類であると判別する。

応答生成ルール記憶部６２には、図１２に示すような１６種類の属性情報の各々に対する応答生成テンプレートを定めた応答候補生成ルールが記憶されている。応答候補生成ルールでは、属性情報「様相」に対して「どんな〜なの？」、属性情報「程度」に対して「どのくらい〜なの？」、属性情報「存在場所」に対して「どこにある〜なの？」、属性情報「所属」に対して「どこの〜なの？」、属性情報「家族」に対して「誰の〜なの？」、属性情報「時間」に対して「いつの〜なの？」、属性情報「対象」に対して「何の〜なの？」、属性情報「色」に対して「何色の〜なの？」、属性情報「量」に対して「どれくらいの〜なの？」、属性情報「道具」に対して「何のための〜なの？」、属性情報「所有者（人間）」に対して「誰の〜なの？」、属性情報「所有者（組織）」に対して「どこの〜なの？」、属性情報「所有者（生物）」に対して「何の〜なの？」、属性情報「主体（人間）」に対して「誰の〜なの？」、属性情報「主体（組織）」に対して「どこの〜なの？」、属性情報「主体（生物）」に対して「何の〜なの？」が各々定められている。

応答生成部６４は、応答候補生成ルールに従って、判別された概念語の属性情報の各々に対応する応答生成テンプレートを取得し、各応答生成テンプレートと抽出された概念語とを用いて、応答文の候補としての質問文を各々生成する。

次に、本実施の形態に係る対話システムの動作について説明する。まず、データベース生成装置１０において、図１３に示す様相程度データベース生成処理ルーチンが実行される。

ステップ１００において、コーパスＤＢ１２から一文を抽出し、ステップ１０２において、上記ステップ１００で抽出された一文に対して、形態素解析を行い、ステップ１０４で、形態素解析結果に基づいて、抽出された一文の中から概念語を抽出する。

そして、ステップ１０６において、上記ステップ１０４で抽出された概念語の中に、未調査の概念語があるか否かを判定し、未調査の概念語がなかった場合には、後述するステップ１１４へ移行するが、一方、未調査の概念語があった場合には、ステップ１０８において、シソーラス記憶部２８に記憶されたシソーラスに基づいて、抽出された概念語の分類に付された分類名を判別する。

上記ステップ１０６において、例えば、「僕も自転車を買った」という一文から抽出された概念語「僕」及び「自転車」について、概念語「自転車」については既に調査済みと判定され、概念語「僕」については未調査であると判定された場合には、ステップ１０８以降の処理を、概念語「僕」に対してのみ行う。

そして、ステップ１１０において、概念語の分類に付された分類名と、属性情報「様相」及び「程度」に対する分類名に関する判別ルールとに基づいて、概念語が表わす概念が有しうる属性情報が、属性情報「様相」であるかを判別すると共に、属性情報「程度」であるかを判別する。

そして、ステップ１１２において、上記ステップ１１０で属性情報が「様相」又は「程度」であると判別された場合には、属性情報「様相」又は「程度」と概念語との対応関係を概念属性データベース２２に登録する。なお、上記ステップ１０６で、抽出された未調査の概念語が複数存在する場合には、未調査の複数の概念語の各々について、上記ステップ１０８〜１１２を繰り返し、属性情報が「様相」又は「程度」であると判別された概念語について、属性情報「様相」又は「程度」と概念語との対応関係を概念属性データベース２２に登録する。

そして、ステップ１１４において、コーパスＤＢ１２に記憶された全ての文について上記の処理が行われたか否かを判定し、未処理の文がある場合には、上記ステップ１００へ戻り、次の一文について処理を行うが、一方、全ての文について上記の処理が行われた場合には、様相程度データベース生成処理ルーチンを終了する。

上述したように、シソーラスにおける分類名で定められ、かつ、属性情報「様相」又は「程度」を有しうるか否かを判別するための判別ルールを予め作成しておき、様相程度データベース生成処理ルーチンを実行して、属性情報「様相」又は「程度」について、任意の概念語が表わす概念が、当該属性情報を有しうるか否かを判別し、概念属性データベースを自動構築する。

次に、データベース生成装置１０において、図１４に示す属性情報データベース生成処理ルーチンが実行される。なお、上記の様相程度データベース生成処理ルーチンと同様の処理については同一符号を付して、詳細な説明を省略する。

まず、ステップ１００において、コーパスＤＢ１２から一文（例えば、「赤の自転車なんだ」）を抽出し、ステップ１０２において、上記ステップ１００で抽出された一文に対して、形態素解析を行い、ステップ１２０で、上記ステップ１０２による形態素解析の結果に基づいて、抽出された一文に対して、係り受け解析を行う。

そして、ステップ１２２において、上記ステップ１２０の係り受け解析の結果に基づいて、抽出された一文から、名詞句「ＡのＢ」（例えば、「赤の自転車」）を抽出し、次のステップ１２４で、シソーラス記憶部２８に記憶されたシソーラスに基づいて、抽出された名詞句「ＡのＢ」の名詞Ａ及び概念語としての名詞Ｂの各々の分類に付された分類名を判別し、ステップ１２６において、判別された名詞Ａ及び名詞Ｂの各々の分類名と、解析ルール記憶部３８に記憶された修飾関係解析ルールとに基づいて、抽出された名詞句「ＡのＢ」の修飾関係を表わす属性情報（例えば、「色」）を決定し、名詞Ｂを概念語として、概念語と決定された属性情報との対応関係の出現頻度を解析結果記憶部４２の集計データに追加する。

そして、ステップ１１４において、コーパスＤＢ１２に記憶された全ての文について上記の処理が行われたか否かを判定し、未処理の文がある場合には、上記ステップ１００へ戻り、次の一文について上記の処理を行うが、一方、全ての文について上記の処理が行われた場合には、ステップ１２８へ進む。

ステップ１２８では、解析結果記憶部４２に記憶された集計データに基づいて、集計データに含まれる各概念語について、予め定められた選択条件（例えば、出現頻度が所定数以上であること）を満たす属性情報を、１４種類の属性情報「存在場所」「所属」「時間」「対象」「道具」「家族」「色」「量」「所有者（人間）」「所有者（組織）」「所有者（生物）」「主体（人間）」「主体（組織）」「主体（生物）」から選択する。そして、次のステップ１３０において、各概念語について、上記ステップ１２８で選択された属性情報との対応関係を概念属性データベース２２に登録して、属性情報データベース生成処理ルーチンを終了する。なお、上記では、出現頻度が所定数以上であることを選択条件とした場合を例に説明したが、出現頻度の割合が所定割合以上であることを選択条件としてもよい。

上述したように、「様相」及び「程度」以外の１４種類の属性情報について、属性情報データベース生成処理ルーチンを実行することにより、大規模なコーパス内に出現した名詞句「ＡのＢ」における修飾関係を解析し、各名詞Ｂについて、出現頻度が所定数以上の修飾関係を表わす属性情報を、名詞Ｂである概念語が表わす概念が持ちうる属性情報として選択し、概念属性データベースを自動構築する。

上記のようにデータベース生成装置１０によって概念属性データベース２２を予め構築しておき、対話装置５０において、図１５に示す応答生成処理ルーチンを実行する。まず、ステップ１５０において、音声入力部５２によって音声信号が入力されたか否かを判定し、音声入力部５２によってユーザによる発話に応じた音声信号が生成されると、ステップ１５０からステップ１５２へ進み、認識用辞書データベースに登録された単語を参照して、入力された音声信号に基づいて、ユーザ発話（例えば、「かっこいい自転車を買おうと思っているよ」）を認識する。

そして、ステップ１５４では、ステップ１５２で認識されたユーザ発話に対して、構造の解析としての形態素解析を行い、解析結果として、図１６に示すようなユーザ発話に対する品詞などの形態素情報を出力し、次のステップ１５６において、ステップ１５４の形態素解析結果及び概念語辞書データベースを参照して、ユーザ発話から、概念語辞書データベースに登録されている概念語（例えば、概念語「かっこいい」、「自転車」）を抽出する。

そして、ステップ１５８において、概念属性データベース２２から、抽出された概念語と対応して登録されている属性情報を検索して、抽出された概念語が表わす概念が有しうる属性情報（例えば、概念語「かっこいい」に対して属性情報「程度」、概念語「自転車」に対して属性情報「様相」、「色」、「所有者（人間）」、「所有者（組織）」、「時間」、「存在場所」、「量」）を判別し、ステップ１６０において、上記ステップ１５８で判別された属性情報及び応答生成ルール記憶部６２に記憶された応答生成ルールに基づいて、概念語を用いた質問文（例えば、属性情報「様相」に対する質問文「どんな自転車なの？」、属性情報「色」に対する質問文「何色の自転車なの？」、属性情報「所有者（人間）」に対する質問文「誰の自転車なの？」、属性情報「所有者（組織）」に対する質問文「どこの自転車なの？」、属性情報「時間」に対する質問文「いつの自転車なの？」、属性情報「存在場所」に対する質問文「どこにある自転車なの？」、及び属性情報「量」に対する質問文「どれくらいの自転車なの？」）を応答文の候補として生成する。なお、判別された属性情報が複数ある場合には、各属性情報について質問文を生成し、応答文の候補を複数生成する。

そして、ステップ１６２では、ステップ１６０で生成された複数の応答文の候補からランダムに選択し、ステップ１６４へ移行する。

なお、上記のステップ１５６で、ユーザ発話から複数の概念語が抽出された場合には、上記のステップ１６０において、抽出された概念語毎に、複数の応答文の候補を生成し、上記のステップ１６２において、生成された全ての応答文の候補の中からランダムに選択すればよい。

ステップ１６４では、ステップ１６２で選択された応答文を音声合成して、音声出力部６６によって音声出力する。そして、ステップ１６６において、音声入力部５２からユーザ発話の音声信号が更に入力されたか否かを判定し、更にユーザ発話が入力された場合には、ステップ１５２へ戻り、上記ステップ１５２〜ステップ１６４を同様に繰り返すが、ユーザ発話が無かった場合には、応答生成処理ルーチンを終了する。

以上説明したように、本発明の実施の形態に係る対話システムのデータベース生成装置によれば、予め定められた判別ルールを用いて、概念語が表わす概念が有しうる属性情報が、疑問詞との対応を考慮した属性情報「様相」又は「程度」であるかを判別して、概念属性データベースを自動構築することができる。

また、概念語が表わす概念が有しうる属性を、疑問詞との対応を考慮した「主体（人間）」、「主体（組織）」、「主体（生物）」、「所有者（人間）」、「所有者（組織）」、及び「所有者（生物）」を含む複数の属性情報から判別して、概念属性データベースを自動構築することができる。

また、対話システムの対話装置によれば、入力されたユーザ発話に含まれる概念語が表わす概念が有しうる属性情報を、疑問詞との対応を考慮した複数の属性情報から判別し、判別された概念語の属性に関する質問文を応答文として生成することにより、適切な応答生成を行うことができる。

概念属性データベースを作成する際、各概念語がどのような属性情報を有しうるかを人手で記述していくのではなく、シソーラス上での分類名で定められた判別ルールに基づいて判別し、あるいは、大規模なコーパス上に出現した各概念語に関する修飾関係を解析して判別することにより、自動処理で概念属性データベースを生成するため、概念語が有しうる属性情報を判別するための概念属性データベースを低コストで生成することが可能である。

また、属性情報「所有」について、所有者情報を考慮し、属性情報「所有」を「所有者（人間）」「所有者（組織）」「所有者（生物）」の３種類に細分化することにより、属性情報「所有」の詳細を尋ねる３種類の質問文「誰の〜」、「どこの〜」、及び「何の〜」を全て生成するのではなく、適切な応答文のみを生成することが可能である。

また、応答生成の際の適切な疑問詞との対応を考慮し、属性情報を統合し（例えば、「商品」、「こと」、「物ごと」のような３つの属性情報は、疑問詞「どんな〜」に対応する属性情報「様相」に統合される）、対象とする属性情報を１６種類としているため、応答生成ルールを作成する際のコストを低くすることができる。

なお、上記の実施の形態では、応答文の候補をランダムに選択する場合を例に説明したが、文脈、状況、又はユーザのプロファイルに基づいて、応答文の候補を選択してもよい。

また、スピーカによる音声出力を行う場合を例に説明したが、これに限定されるものではなく、ディスプレイに応答文を表示するようにしてもよい。

また、ユーザから音声がマイクロホンに入力される場合を例に説明したが、ユーザがキーボードなどを用いて入力文としてのテキストを入力するようにしてもよい。

また、１６種類の属性情報から、概念語の属性情報を判別する場合を例に説明したが、これに限定されるものではなく、「様相」及び「程度」、「所有者（人間）」、「所有者（組織）」、及び「所有者（生物）」、ならびに「主体（人間）」、「主体（組織）」、及び「主体（生物）」のいずれかを含んでいる複数種類の属性情報であれば、他の種類の属性情報を含む組み合わせであってもよい。

本発明の実施の形態に係る対話システムのデータベース生成装置の構成を示す概略図である。形態素解析の結果を示すイメージ図である。シソーラスの内容を示すイメージ図である。判別ルールの例を示す表である。概念属性データベースに登録される概念語と属性情報との対応関係を示す表である。形態素解析の結果を示すイメージ図である。係り受け解析の結果を示すイメージ図である。修飾関係解析ルールの例を示す表である。解析結果の集計データの例を示す表である。概念属性データベースに登録される概念語と属性情報との対応関係を示す表である。本発明の実施の形態に係る対話システムの対話装置の構成を示す概略図である。応答候補生成ルールの例を示す表である。本発明の実施の形態に係るデータベース生成装置における様相程度データベース生成処理ルーチンの内容を示すイメージ図である。本発明の実施の形態に係るデータベース生成装置における属性情報データベース生成処理ルーチンの内容を示すイメージ図である。本発明の実施の形態に係る対話装置における応答生成処理ルーチンの内容を示すイメージ図である。形態素解析の結果を示すイメージ図である。

符号の説明

１０データベース生成装置
１２コーパスＤＢ
１６、５６形態素解析部
１８様相程度データベース生成部
２０属性情報データベース生成部
２２概念属性データベース
２６概念語抽出部
２８シソーラス記憶部
３０分類名判別部
３２判別ルール記憶部
３４、６０属性情報判別部
３５、５０データベース登録部
３６「ＡのＢ」抽出部
３８解析ルール記憶部
４０修飾関係解析部
４２解析結果記憶部
４４属性情報選択部
４６データベース登録部
５２音声入力部
５４音声認識部
５８概念抽出部
６２応答生成ルール記憶部
６４応答生成部
６６音声出力部

Claims

複数の階層の各々の単語間の意味的類似関係に応じて、階層状に単語を分類し、かつ、前記意味的類似関係に応じた分類名を各階層の各分類に付した分類情報を記憶した記憶手段と、
前記分類情報に基づいて定まる判別対象の概念語の分類に付された分類名と、様相及び程度を含む複数の属性の各々に対して予め定められた前記属性を判別するための前記分類名に関する判別条件とに基づいて、前記判別対象の概念語が表わす概念が有することができる前記属性を判別する判別手段と、
を含む属性判別装置。
前記概念語の品詞を、名詞、形容詞、及び副詞の３種類とした請求項１記載の属性判別装置。
複数の階層の各々の単語間の意味的類似関係に応じて、階層状に単語を分類し、かつ、前記意味的類似関係に応じた分類名を各階層の各分類に付した分類情報を記憶した記憶手段と、
名詞である概念語と該概念語を修飾している単語とを含む複数の名詞句の各々について、前記分類情報に基づいて、前記名詞句の前記概念語及び前記単語の各々の分類に付された分類名を判別し、主体が人間であること、主体が組織であること、及び主体が人間以外の生物であること、又は所有者が人間であること、所有者が組織であること、及び所有者が人間以外の生物であることを含む複数の属性と、前記概念語及び前記単語の各々の分類に付された分類名との予め定められた対応関係、及び前記判別された前記概念語及び前記単語の各々の分類に付された分類名に基づいて、前記名詞句の前記概念語と前記単語との間の修飾関係を表わす属性情報を決定する決定手段と、
各概念語について、前記決定手段によって前記名詞句の前記概念語と前記単語との間の修飾関係を表わす属性情報として決定された前記属性の頻度又は割合に基づいて、前記概念語が表わす概念が有することができる属性を判別する判別手段と、
を含む属性判別装置。
前記複数の属性は、存在場所、所属、時間、対象、道具、家族、色、及び量を更に含む請求項３記載の属性判別装置。
前記判別手段によって判別された前記概念語が表わす概念が有することができる属性に基づいて、複数の概念語の各々が表わす概念が有することができる属性が格納された属性データベースを生成する生成手段を更に含む請求項１又は２記載の属性判別装置。
前記判別手段によって判別された前記概念語が表わす概念が有することができる属性に基づいて、複数の概念語の各々が表わす概念が有することができる属性が格納された属性データベースを生成する生成手段を更に含む請求項３又は４記載の属性判別装置。
前記分類情報では、第１階層の分類によって、同じ品詞の単語が同じ分類に属するように分類され、第２階層以降の分類によって、階層が深くなるに従って意味的類似関係が強くなるように定められた各階層の前記意味的類似関係にある単語が、該階層の同じ分類に属するように分類されている請求項１〜請求項６の何れか１項記載の属性判別装置。
ユーザによる発話及び入力文の少なくとも一方を入力する入力手段と、
前記入力手段によって入力された前記発話及び入力文の少なくとも一方の構造を解析する解析手段と、
前記解析手段による解析結果に基づいて、前記発話及び入力文の少なくとも一方に含まれる概念語を抽出する抽出手段と、
請求項５記載の属性判別装置によって生成された属性データベース又は請求項６記載の属性判別装置によって生成された属性データベースに基づいて、前記抽出手段によって抽出された概念語の属性を判別する属性判別手段と、
前記属性判別手段によって判別された属性に基づいて、前記ユーザによる発話及び入力文の少なくとも一方に対する応答文として、該属性に関する質問文を生成する応答生成手段と、
前記応答生成手段によって生成された応答文を出力する出力手段と、
を含む対話装置。
コンピュータを、
複数の階層の各々の単語間の意味的類似関係に応じて、階層状に単語を分類し、かつ、前記意味的類似関係に応じた分類名を各階層の各分類に付した分類情報を記憶した記憶手段に記憶された前記分類情報に基づいて定まる判別対象の概念語の分類に付された分類名と、様相及び程度を含む複数の属性の各々に対して予め定められた前記属性を判別するための前記分類名に関する判別条件とに基づいて、前記判別対象の概念語が表わす概念が有することができる前記属性を判別する判別手段
として機能させるためのプログラム。
コンピュータを、
名詞である概念語と該概念語を修飾している単語とを含む複数の名詞句の各々について、複数の階層の各々の単語間の意味的類似関係に応じて、階層状に単語を分類し、かつ、前記意味的類似関係に応じた分類名を各階層の各分類に付した分類情報を記憶した記憶手段に記憶された前記分類情報に基づいて、前記名詞句の前記概念語及び前記単語の各々の分類に付された分類名を判別し、主体が人間であること、主体が組織であること、及び主体が人間以外の生物であること、又は所有者が人間であること、所有者が組織であること、及び所有者が人間以外の生物であることを含む複数の属性と、前記概念語及び前記単語の各々の分類に付された分類名との予め定められた対応関係、及び前記判別された前記概念語及び前記単語の各々の分類に付された分類名に基づいて、記名詞句の前記概念語と前記単語との間の修飾関係を表わす属性情報を決定する決定手段、及び
各概念語について、前記決定手段によって前記名詞句の前記概念語と前記単語との間の修飾関係を表わす属性情報として決定された前記属性の頻度又は割合に基づいて、前記概念語が表わす概念が有することができる属性を判別する判別手段
として機能させるためのプログラム。