JP2015172880A - テンプレート生成装置及びテンプレート生成プログラム - Google Patents

テンプレート生成装置及びテンプレート生成プログラム Download PDF

Info

Publication number
JP2015172880A
JP2015172880A JP2014048822A JP2014048822A JP2015172880A JP 2015172880 A JP2015172880 A JP 2015172880A JP 2014048822 A JP2014048822 A JP 2014048822A JP 2014048822 A JP2014048822 A JP 2014048822A JP 2015172880 A JP2015172880 A JP 2015172880A
Authority
JP
Japan
Prior art keywords
template
expression
specific expression
pattern
sentence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2014048822A
Other languages
English (en)
Other versions
JP6263420B2 (ja
Inventor
塚原 裕史
Yasushi Tsukahara
裕史 塚原
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Denso IT Laboratory Inc
Original Assignee
Denso IT Laboratory Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Denso IT Laboratory Inc filed Critical Denso IT Laboratory Inc
Priority to JP2014048822A priority Critical patent/JP6263420B2/ja
Publication of JP2015172880A publication Critical patent/JP2015172880A/ja
Application granted granted Critical
Publication of JP6263420B2 publication Critical patent/JP6263420B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

【課題】 多くのテンプレートを容易に生成できるテンプレート生成装置を提供する。
【解決手段】 テンプレート生成装置100は、学習データベース2から文を抽出する文抽出部11と、文抽出部11にて抽出された文を複数の形態素に分割し、複数の形態素の中から固有表現を抽出する形態素分析部12と、文抽出部11にて抽出された文から、形態素分析部にて抽出された固有表現をその固有表現タイプを示すタグに置き換えて、パターンを生成する固有表現分析部14と、同一の固有表現タイプの組を有し、かつ同一の固有表現タイプの組以外が同一の表現又は所定値以下の編集距離を有する表現となるパターンが、所定の数以上ある場合に、当該パターンをテンプレートとして抽出するテンプレート抽出部3とを備えている。
【選択図】 図1

Description

本発明は、コーパスから文を抽出して文生成テンプレート(以下単に「テンプレート」という。)を生成するテンプレート生成装置及びテンプレート生成プログラムに関するものである。
近年、人と対話的にインタラクションを行う情報システムやロボット等の対話インタフェースに関する研究が盛んである。このような対話インタフェースを備えた対話システムは、あらかじめ定義された文を用いて疑似的にユーザとの対話文を生成して、ユーザからの入力に対して応答している。
しかしながら、対話文を生成する際に、あらかじめ定義された文として固定的な文しか用意していないと、例えば乗換案内を対話的に行う対話システムにおいて、ユーザからの出発駅名、目的地駅名などの入力に対して、柔軟に対応することができない。このような柔軟な対応を可能にするために、従来の対話システムでは、出発駅名、目的地駅名等の固有表現をキーワードとして、これらのキーワードを変数として扱うことができるテンプレートが利用されている(例えば、非特許文献1参照)。
なお、本発明に関連する先行技術として、以下の先行技術文献がある。
河原達也、荒木雅弘著、「音声対話システム(知の科学)」、オーム社、2006年10月
しかしながら、従来の対話システムにおけるテンプレートでは、様々な入力に対して応答できるようにするためには、異なるキーワードに対して、生成される文が自然な表現になるようにする必要があり、そのためには多くの異なるテンプレートを用意する必要がある。さらに、多くのテンプレートを人手で作成しなければならないので、多くの分野に跨って適切な応答を行うためには、より多くの作業が必要になる。
本発明は、上記の問題に鑑みてなされたものであり、多くのテンプレートを容易に生成できるテンプレート生成装置及びテンプレート生成プログラムを提供することを目的とする。
本発明のテンプレート生成装置は、コーパスから文を抽出する文抽出部と、前記文抽出部にて抽出された文を複数の形態素に分割し、前記複数の形態素の中から固有表現を抽出する形態素分析部と、前記文抽出部にて抽出された文から、前記形態素分析部にて抽出された前記固有表現をその固有表現タイプを示すタグに置き換えて、パターンを生成するパターン生成部と、同一の前記固有表現タイプの組を有し、かつ前記同一の固有表現タイプの組以外が同一の表現又は所定値以下の編集距離を有する表現となるパターンが、所定の数以上ある場合に、当該パターンをテンプレートとして抽出するテンプレート抽出部とを備えた構成を有している。この構成により、頻出のパターンについて、コーパスから抽出した文に基づいてテンプレートを生成することができるので、手間を軽減して容易に多くのテンプレートを生成できる。
上記のテンプレート生成装置において、前記テンプレート抽出部は、前記パターン生成部にて生成された前記パターンに含まれる前記固有表現タイプ及びそれ以外の表現を同種の固有表現タイプ及び表現に置き換えてパターンを生成し、生成したパターンも含めて前記パターンの数をカウントしてよい。この構成により、より多くのテンプレートを生成できる。
上記のテンプレート生成装置において、前記同種の固有表現タイプ及び表現は、前記パターン生成部にて生成されたパターンに含まれる固有表現タイプ及び表現の上位概念の固有表現タイプ及び表現であってよい。この構成により、オントロジーを用いて、容易により多くのテンプレートを生成できる。
上記のテンプレート生成装置において、前記同種の固有表現タイプ及び表現は、前記パターン生成部にて生成されたパターンに含まれる固有表現タイプ及び表現と上位概念を共通にする類似概念の固有表現タイプ及び表現であってよい。この構成により、オントロジーを用いて、容易により多くのテンプレートを生成できる。
上記のテンプレート生成装置は、前記テンプレート抽出部にて抽出された前記テンプレートに含まれる固有表現タイプ及び表現を、前記パターン抽出部にて抽出されていない同種の固有表現タイプ及び表現に置き換えて、新たなテンプレートを作出するテンプレート作出部をさらに備えていてよい。この構成により、コーパスにはない文についても、同種の概念を用いて、テンプレートを生成することができる。
上記のテンプレート生成装置において、前記置き換えに用いる同種の固有表現タイプ及び表現は、前記テンプレート抽出部にて抽出されたテンプレートに含まれる固有表現タイプ及び表現の上位概念の固有表現タイプ及び表現であってよい。この構成により、コーパスにはない文についても、上位概念を用いて、テンプレートを生成することができる。
上記のテンプレート生成装置において、前前記置き換えに用いる同種の固有表現タイプ及び表現は、前記テンプレート抽出部にて抽出されたテンプレートに含まれる固有表現タイプ及び表現と上位概念を共通にする類似概念の固有表現タイプ及び表現であってよい。この構成により、コーパスにはない文についても、類似概念を用いて、テンプレートを生成することができる。
上記のテンプレート生成装置は、前記テンプレート抽出部にて抽出された、同一の概念を有する複数のテンプレートをまとめてクラスタとするクラスタリング部をさらに備えていてよい。この構成により、同一の概念を有する複数のテンプレートをまとめて管理することができ、テンプレートを使用する際には、複数のテンプレート中から適宜選択して用いることができる。
上記のテンプレート生成装置において、前記クラスタリング部は、前記クラスタに含まれる各テンプレートに含まれる固有表現タイプ及び表現を上位概念の固有表現タイプ及び表現に置き換えて、上位テンプレートのクラスタを生成してよい。これにより、上位概念を用いて上位テンプレートのクラスタを生成できる。
上記のテンプレート生成装置において、前記クラスタリング部は、前記上位テンプレートのクラスタに含まれる各テンプレートに含まれる固有表現タイプ及び表現を下位概念の固有表現タイプ及び表現に置き換えて、類似テンプレートのクラスタを生成してよい。この構成により、類似概念を用いて類似テンプレートのクラスタを生成できる。
本発明の別の態様は、コーパスから文を抽出する文抽出ステップと、前記文抽出ステップにて抽出された文を複数の形態素に分割し、前記複数の形態素の中から固有表現を抽出する形態素分析ステップと、前記文抽出ステップにて抽出された文から、前記形態素分析ステップにて抽出された前記固有表現をその固有表現タイプを示すタグに置き換えて、パターンを生成するパターン生成ステップと、同一の前記固有表現タイプの組を有し、かつ前記同一の固有表現タイプの組以外が同一の表現又は所定値以下の編集距離を有する表現となるパターンが、所定の数以上ある場合に、当該パターンをテンプレートとして抽出するテンプレート抽出ステップとを実行させる構成を有している。この構成によっても、頻出のパターンについて、コーパスから抽出した文に基づいてテンプレートを生成することができるので、手間を軽減して容易に多くのテンプレートを生成できる。
本発明によれば、頻出のパターンについて、コーパスから抽出した文に基づいてテンプレートを生成することができるので、手間を軽減して容易に多くのテンプレートを生成できる。
本発明の実施の形態におけるテンプレート生成装置の構成を示すブロック図 本発明の実施の形態におけるテンプレート生成装置の動作を示すフロー図 本発明の実施の形態におけるパターン抽出処理のフロー図
以下、本発明の実施の形態のテンプレート生成装置について、図面を参照しながら説明する。なお、以下に説明する実施の形態は、本発明を実施する場合の一例を示すものであって、本発明を以下に説明する具体的構成に限定するものではない。本発明の実施にあたっては、実施の形態に応じた具体的構成が適宜採用されてよい。
図1は、本発明の実施の形態のテンプレート生成装置の構成を示す図である。テンプレート生成装置100は、自然言語分析部1と、学習データベース2と、テンプレート抽出部3と、オントロジー辞書4と、テンプレート辞書5とを備えている。自然言語分析部1は、文抽出部11と、形態素分析部12と、構文分析部13と、固有表現分析部14を備え、オントロジー辞書4は、拡張固有表現階層部41を備えている。テンプレート生成装置100のこれらの構成は、演算処理デバイス、記憶デバイス等を有し、所定のシステムソフトウェアによって動作するコンピュータが、本発明の実施の形態のテンプレート生成プログラムを実行することによって実現される。
学習データベース2には、学習データとして複数の自然文からなるコーパスが記憶されている。オントロジー辞書4には、オントロジーとして各表現の概念体系が記憶されている。オントロジー辞書4の拡張固有表現階層部41には、固有表現についてその概念体系が記憶されている。また、テンプレート辞書5には、テンプレート抽出部3で抽出されたテンプレートが記憶されている。
文抽出部11は、学習データベース2から自然文を読み込んで、文の単位に分割する。このとき、文抽出部11は、自然文が複文であれば、これを複数の単文にする処理を行う。例えば、コーパスに、「坊ちゃんは夏目漱石の著作であり、レオナルド・ダ・ヴィンチの代表作はモナ・リザです」という自然文があった場合に、「坊ちゃんは夏目漱石の著作であり」と「レオナルド・ダ・ヴィンチの代表画はモナ・リザです」という文が抽出される。
形態素分析部12は、文抽出部11にて抽出された文を形態素に分割し、分割された形態素の中から、固有表現を抽出する。ここで、形態素分析部12は、固有表現を有しない文を排除し、固有表現を有する文は構文分析部13に出力する。形態素分析部12は、分割によって得られた各形態素について、拡張固有表現階層部41を参照して、それらが固有表現であるか否かを判断する。上記の例において、「坊ちゃんは夏目漱石の著作であり」という文については、「坊ちゃん」、「夏目漱石」が固有表現であり、「著作」が普通名詞であり、「レオナルド・ダ・ヴィンチの代表画はモナ・リザです」という文については、「レオナルド・ダ・ヴィンチ」、「モナ・リザ」が固有表現であり、「代表画」が普通名詞である。
構文分析部13は、形態素分析部12にて固有表現を含むと判断された文について、形態素間の係り受け関係、即ち固有表現と固有表現に対応する普通名詞との係り受け関係を分析する。上記の例において、「坊ちゃんは夏目漱石の著作であり」という文については、「『坊ちゃん』が『著作(普通名詞)である』」という構文、「レオナルド・ダ・ヴィンチの代表画はモナ・リザです」という文については、「『代表画(普通名詞)』が『モナ・リザ』である」という構文であると分析される。
固有表現分析部14は、拡張固有表現階層部41を参照して、抽出された固有表現の形態素を、その固有表現タイプ(例えば、「人名」、「地名」)と固有表現の組からなるタグに置き換え、これを素パターンとする。この固有表現分析部14は、本発明のパターン生成部尼僧とする。上記の例では、「坊ちゃん」の固有表現タイプは「著作名」であり、「夏目漱石」の固有表現タイプは「人名」であり、「レオナルド・ダ・ヴィンチ」の固有表現タイプは「人名」であり、「モナ・リザ」の固有表現タイプは「画名」である。それぞれの文からは「<坊ちゃん:著作名>は<夏目漱石:人名>の著作であり」、「<レオナルド・ダ・ヴィンチ:人名>の代表画は<モナ・リザ:画名>です」という素パターンが生成される。
テンプレート抽出部3は、固有表現分析部14にて生成された素パターンに対して、オントロジー辞書4を参照して、素パターンに含まれる固有表現タイプ及び固有表現以外の表現を、同種の固有表現タイプ及び表現に置き換えて置換パターンを生成する。このとき、テンプレート抽出部3は、素パターンに含まれる固有表現タイプ及び表現を、それに対応するすべての同種の固有表現タイプ及び表現で置換することにより置換パターンを生成する。素パターンに複数の置換すべき固有表現タイプ及び表現が含まれる場合には、各固有表現タイプ及び表現をそれぞれ同種の固有表現タイプ及び表現に置き換えることで、すべての固有表現タイプ及び表現の組について、置換パターンを生成する。ここで、ある固有表現タイプ又は表現に対する同種の固有表現タイプ又は表現とは、当該ある固有表現タイプ又は表現の上位概念の固有表現タイプ又は表現、及び当該ある固有表現タイプ又は表現と上位概念を共通にする類似概念の固有表現タイプ又は表現をいう。
例えば、上記の「<坊ちゃん:著作名>は<夏目漱石:人名>の著作であり」という素パターンについては、「著作名」が上位概念の「作品名」に置換され、「著作」が上位概念の「作品」に置換され、上位概念の置換パターンとして、「<坊ちゃん:作品名>は<夏目漱石:人名>の作品であり」が生成される。さらにその上位概念の置換パターンから、「<坊ちゃん:製品名>は<夏目漱石:人名>の製品であり」という置換パターンが生成される。また、「<坊ちゃん:著作名>は<夏目漱石:人名>の著作であり」という素パターンについて、「<作品名>は<夏目漱石:人名>の作品であり」という置換パターンの下位のパターン(類似パターン)として、「<曲名>は<人名>の曲です」という置換パターンが生成される。
また、「<レオナルド・ダ・ヴィンチ:人名>の代表画は<モナ・リザ:画名>です」という素パターンについても、その上位概念の置換パターンは、「<レオナルド・ダ・ヴィンチ:人名>の代表作は<モナ・リザ:作品名>です」、「<レオナルド・ダ・ヴィンチ:人名>の代表製品は<モナ・リザ:製品名>です」という置換パターンが生成され、また、「<レオナルド・ダ・ヴィンチ:人名>の代表画は<モナ・リザ:作品名>です」の下位概念のパターン(類似パターン)として、「<人名>の代表曲は<曲名>です」という置換パターンが生成される。
テンプレート抽出部3は、素パターン及び置換パターンに含まれる表現ごとにパターンを整理して、同一の固有表現タイプの組を有し、それ以外が同一の表現又は所定値以下の編集距離を有する表現となるパターンを1つのグループとしてまとめる。ここで、編集距離とは、ある文字列を他の文字列へ変化させるために必要な文字の置き換えの最小回数をいう。テンプレート抽出部3は、このようにしたできたグループに含まれるパターンが所定の数以上となる場合に、そのグループに含まれるパターンをテンプレートとして抽出する。
例えば、「坊ちゃんは夏目漱石の著作であり」という文から、「<坊ちゃん:著作名>は<夏目漱石:人名>の著作であり」という素パターンが得られ、「羅生門は芥川龍之介の著作である」という文から、「<羅生門:著作名>は<芥川龍之介:人名>の著作であり」という素パターンが得られると、これらが、同一の固有表現タイプの組(<著作名>及び<人名>の組)を有し、それ以外が同一の表現又は所定値以下の編集距離を有する表現となるパターンとして、1つのグループとしてまとめられる。そして、テンプレート抽出部3は、所定の数以上のパターンが1つのグループにまとめられると、そのグループのパターンをテンプレートとして抽出する。この例では、「<著作名>は<人名>の著作であり」というテンプレートが抽出される。
また、「坊ちゃんは夏目漱石の著作であり」という文から、その置換パターンとして「<坊ちゃん:作品名>は<夏目漱石:人名>の作品であり」というパターンが得られ、「運命はベートーヴェンの楽曲である」という文から、その素パターンとして「<運命:曲名>は<ベートーヴェン:人名>の曲であり」が得られ、さらにその置換パターンとして「<運命:作品名>は<ベートーヴェン:人名>の作品であり」が得られると、これら「<坊ちゃん:作品名>は<夏目漱石:人名>の作品であり」というパターンと「<運命:作品名>は<ベートーヴェン:人名>の作品であり」というパターンは、同一の固有表現タイプの組を有し、それ以外が同一の表現又は所定値以下の編集距離を有する表現となるパターンとして、1つのグループとしてまとめられる。このグループからは、「<作品名>は<人名>の作品であり」というテンプレートが抽出される。
テンプレート抽出部3は、さらに、抽出したテンプレートにおいて、同一の固有表現タイプの組を有し、同一の概念を有するテンプレートについては、同じ概念を言い換えたテンプレートとして1つのクラスタにまとめる。テンプレート抽出部3のこの機能は、本発明のクラスタリング部に相当する。例えば、<曲名>と<人名>の組を有するテンプレートについて、「<曲名>は<人名>の代表曲です」というテンプレートと、「<人名>の代表曲は<曲名>です」というテンプレートは、同じ概念を言い換えたテンプレートとして1つのクラスタにまとめられる。
また、テンプレート抽出部3は、各クラスタに含まれる抽出したテンプレートについて、それらに含まれる固有表現タイプ及び表現をオントロジーの上位概念の表現に置き換えて上位テンプレートを生成して上位テンプレートのクラスタを生成する。テンプレート抽出部3は、さらに、この上位テンプレートのクラスタに含まれる上位テンプレートについて、それらに含まれる上位概念の固有表現タイプ及び表現を、当該上位概念に含まれる下位概念の固有表現タイプ及び表現(元の固有表現タイプ及び表現とは異なる固有表現タイプ及び表現)に置き換えて下位テンプレートを生成し、これらの下位テンプレートをもとのテンプレートの類似テンプレートとして、類似テンプレートのクラスタを生成する。テンプレート抽出部3のこれらの上位テンプレートや下位テンプレートを生成する機能は、本発明のテンプレート作出部に相当する。
例えば、<曲名>と<人名>の組を有するテンプレートとして、「<曲名>は<人名>の代表曲です」というテンプレートと、「<人名>の代表曲は<曲名>です」というテンプレートがあり、これらが同一の概念を言い換えたものとして1つのクラスタにまとめられている場合に、「<曲名>は<人名>の代表曲です」というテンプレートに含まれる固有表現タイプ「<曲名>」、及び表現「代表曲」が上位概念の固有表現タイプ「<作品名>」、及び表現「代表作」に置き換えられて、「<作品名>は<人名>の代表作です」という上位テンプレートが生成され、同様に「<人名>の代表曲は<曲名>です」というテンプレートから「<人名>の代表作は<作品名>です」という上位テンプレートが生成され、これらの上位テンプレートは、<曲名>と<人名>という固有表現タイプの組を有し、同一の概念を有するテンプレートとして1つのクラスタにまとめられる。
さらに、この場合に、<作品名>と<人名>の組を有する上位テンプレートのクラスタに、「<作品名>は<人名>の代表作です」という上位テンプレートと、「<人名>の代表作は<作品名>です」という上位テンプレートがある場合に、「<作品名>は<人名>の代表作です」という上位テンプレートに含まれる固有表現タイプ「<作品名>」、及び表現「代表作」が下位概念の「<著作名>」という固有表現タイプ、及び「代表著作」という表現に置き換えられて、「<著作名>は<人名>の代表著作です」という下位テンプレートが生成され、同様に「<人名>の代表作は<作品名>です」という上位テンプレートから「<人名>の代表著作は<著作名>です」という下位テンプレートが生成され、これらの下位テンプレートは、<曲名>と<人名>という固有表現タイプの組を有し、同一の概念を有するテンプレートとして1つのクラスタにまとめられる。
このようにして、テンプレート抽出部3にて、抽出され、又は作出されたテンプレートのクラスタはテンプレート辞書5に保存され、同一クラスタ内のテンプレートは言い換えに使用される。
なお、クラスタリング部としてのテンプレート抽出部3は、1つのテンプレートに複数のサブテンプレートが含まれる場合は、複数テンプレート同士の類似関係を次のように判断する。すなわち、テンプレート抽出部3は、サブテンプレートs1とサブテンプレートs2とが類似し、サブテンプレートt1とサブテンプレートt2とが類似する場合に、サブテンプレートs1、t1を含むテンプレートT1と、サブテンプレートs2、t2を含むテンプレートT2とは類似すると判断する。
図2は、本発明の実施の形態におけるテンプレート生成装置の動作を示すフロー図である。テンプレート生成装置100では、まず、文抽出部11が学習データベース2から学習データを読み出して(ステップS21)、それを文の単位に分割することで文を抽出する(ステップS22)。次に、テンプレート生成装置100は、文抽出部11で抽出された文に対してパターン抽出処理を行う(ステップS23)。パターン抽出処理については後述する。
そして、テンプレート抽出部3は、抽出されたパターンに基づいてテンプレートとすべき文を抽出する(ステップS24)。また、テンプレート抽出部3は、このとき、抽出したテンプレートの上位テンプレート及び類似テンプレートをクラスタリングして(ステップS25)、テンプレート辞書5に保存する。
図3は、本発明の実施の形態におけるパターン抽出処理を説明するフロー図である。パターン抽出処理では、まず、形態素分析部12が、文抽出部11で抽出された文について形態素分析を行って、固有表現を含む文であるか否かを判断する(ステップS31)。そして、構文分析部13は、固有表現と、その固有表現に対応する普通名詞との係り受け関係を分析する(ステップS32)。そして、固有表現分析部14は、抽出された固有表現の形態素を、その固有表現タイプと固有表現の組からなるタグに置き換え、これを素パターンとする(ステップS33)。
以上のように、本発明の実施の形態のテンプレート生成装置は、同一の固有表現タイプの組を有し、かつその固有表現タイプの組以外が同一の表現又は所定値以下の編集距離を有する表現である複数のパターンの数をカウントし、所定の数以上となったパターンをテンプレートとして抽出するので、多数の自然文を含むコーパスから文を抽出して自動的にテンプレートを生成することができる。
なお、上記の実施の形態では、パターンの数をカウントする際に、素パターンから生成された置換パターンもカウントしたが、置換パターンを生成せずに、素パターンのみについて、同一の固有表現タイプの組を有し、かつその固有表現タイプの組以外が同一の表現又は所定値以下の編集距離を有する表現であるパターンの数をカウントしてもよい。また、テンプレート抽出部3は、上述のクラスタリング部としての機能を有しないものであってもよい。
本発明は、頻出のパターンについて、コーパスから抽出した文に基づいてテンプレートを生成することができるので、手間を軽減して容易に多くのテンプレートを生成できるという効果を有し、コーパスから文を抽出してテンプレートを生成するテンプレート生成装置等として有用である。
100 テンプレート生成装置
1 自然言語分析部
11 文抽出部
12 形態素分析部
13 構文分析部
14 固有表現分析部
2 学習データベース
3 テンプレート抽出部
4 オントロジー辞書
41 拡張固有表現階層部
5 テンプレート辞書

Claims (11)

  1. コーパスから文を抽出する文抽出部と、
    前記文抽出部にて抽出された文を複数の形態素に分割し、前記複数の形態素の中から固有表現を抽出する形態素分析部と、
    前記文抽出部にて抽出された文から、前記形態素分析部にて抽出された前記固有表現をその固有表現タイプを示すタグに置き換えて、パターンを生成するパターン生成部と、
    同一の前記固有表現タイプの組を有し、かつ前記同一の固有表現タイプの組以外が同一の表現又は所定値以下の編集距離を有する表現となるパターンが、所定の数以上ある場合に、当該パターンをテンプレートとして抽出するテンプレート抽出部と、
    を備えたことを特徴とするテンプレート生成装置。
  2. 前記テンプレート抽出部は、前記パターン生成部にて生成された前記パターンに含まれる前記固有表現タイプ及びそれ以外の表現を同種の固有表現タイプ及び表現に置き換えてパターンを生成し、生成したパターンも含めて前記パターンの数をカウントすることを特徴とする請求項1に記載のテンプレート生成装置。
  3. 前記同種の固有表現タイプ及び表現は、前記パターン生成部にて生成されたパターンに含まれる固有表現タイプ及び表現の上位概念の固有表現タイプ及び表現であることを特徴とする請求項2に記載のテンプレート生成装置。
  4. 前記同種の固有表現タイプ及び表現は、前記パターン生成部にて生成されたパターンに含まれる固有表現タイプ及び表現と上位概念を共通にする類似概念の固有表現タイプ及び表現であることを特徴とする請求項2又は3に記載のテンプレート生成装置。
  5. 前記テンプレート抽出部にて抽出された前記テンプレートに含まれる固有表現タイプ及び表現を、前記パターン抽出部にて抽出されていない同種の固有表現タイプ及び表現に置き換えて、新たなテンプレートを作出するテンプレート作出部をさらに備えたことを特徴とする請求項1に記載のテンプレート生成装置。
  6. 前記置き換えに用いる同種の固有表現タイプ及び表現は、前記テンプレート抽出部にて抽出されたテンプレートに含まれる固有表現タイプ及び表現の上位概念の固有表現タイプ及び表現であることを特徴とする請求項5に記載のテンプレート生成装置。
  7. 前記置き換えに用いる同種の固有表現タイプ及び表現は、前記テンプレート抽出部にて抽出されたテンプレートに含まれる固有表現タイプ及び表現と上位概念を共通にする類似概念の固有表現タイプ及び表現であることを特徴とする請求項5に記載のテンプレート生成装置。
  8. 前記テンプレート抽出部にて抽出された、同一の概念を有する複数のテンプレートをまとめてクラスタとするクラスタリング部をさらに備えたことを特徴とする請求項5ないし7のいずれか一項に記載のテンプレート生成装置。
  9. 前記クラスタリング部は、前記クラスタに含まれる各テンプレートに含まれる固有表現タイプ及び表現を上位概念の固有表現タイプ及び表現に置き換えて、上位テンプレートのクラスタを生成することを特徴とする請求項8に記載のテンプレート生成装置。
  10. 前記クラスタリング部は、前記上位テンプレートのクラスタに含まれる各テンプレートに含まれる固有表現タイプ及び表現を下位概念の固有表現タイプ及び表現に置き換えて、類似テンプレートのクラスタを生成することを特徴とする請求項9に記載のテンプレート生成装置。
  11. コンピュータに、
    コーパスから文を抽出する文抽出ステップと、
    前記文抽出ステップにて抽出された文を複数の形態素に分割し、前記複数の形態素の中から固有表現を抽出する形態素分析ステップと、
    前記文抽出ステップにて抽出された文から、前記形態素分析ステップにて抽出された前記固有表現をその固有表現タイプを示すタグに置き換えて、パターンを生成するパターン生成ステップと、
    同一の前記固有表現タイプの組を有し、かつ前記同一の固有表現タイプの組以外が同一の表現又は所定値以下の編集距離を有する表現となるパターンが、所定の数以上ある場合に、当該パターンをテンプレートとして抽出するテンプレート抽出ステップと、
    を実行させることを特徴とするテンプレート生成プログラム。
JP2014048822A 2014-03-12 2014-03-12 テンプレート生成装置及びテンプレート生成プログラム Expired - Fee Related JP6263420B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2014048822A JP6263420B2 (ja) 2014-03-12 2014-03-12 テンプレート生成装置及びテンプレート生成プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2014048822A JP6263420B2 (ja) 2014-03-12 2014-03-12 テンプレート生成装置及びテンプレート生成プログラム

Publications (2)

Publication Number Publication Date
JP2015172880A true JP2015172880A (ja) 2015-10-01
JP6263420B2 JP6263420B2 (ja) 2018-01-17

Family

ID=54260159

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014048822A Expired - Fee Related JP6263420B2 (ja) 2014-03-12 2014-03-12 テンプレート生成装置及びテンプレート生成プログラム

Country Status (1)

Country Link
JP (1) JP6263420B2 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018503145A (ja) * 2015-11-17 2018-02-01 小米科技有限責任公司Xiaomi Inc. 情報テンプレートをマイニングする方法、その装置、プログラム、及び記録媒体
JP2018120401A (ja) * 2017-01-25 2018-08-02 国立大学法人 東京大学 抽出装置、抽出方法、ならびに、プログラム
JP2020135135A (ja) * 2019-02-14 2020-08-31 株式会社日立製作所 対話コンテンツ作成支援方法およびシステム

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117077649B (zh) * 2023-10-16 2024-01-09 之江实验室 一种生成医疗文本提取模版方法、装置、介质及设备

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003085170A (ja) * 2001-09-11 2003-03-20 Nippon Hoso Kyokai <Nhk> 定型文クラスタリング装置および方法
US20080005265A1 (en) * 2006-06-30 2008-01-03 Nokia Corporation Method for automatic parsing of variable data fields from textual report data
JP2010079858A (ja) * 2008-09-29 2010-04-08 Toshiba Solutions Corp 辞書作成支援装置及びプログラム
JP2010224659A (ja) * 2009-03-19 2010-10-07 Canon Inc 情報処理装置、情報処理方法、プログラム及び記憶媒体
JP2012037790A (ja) * 2010-08-10 2012-02-23 Toshiba Corp 音声対話装置
JP2012078647A (ja) * 2010-10-04 2012-04-19 National Institute Of Information & Communication Technology 言語モデル学習装置及びコンピュータプログラム

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003085170A (ja) * 2001-09-11 2003-03-20 Nippon Hoso Kyokai <Nhk> 定型文クラスタリング装置および方法
US20080005265A1 (en) * 2006-06-30 2008-01-03 Nokia Corporation Method for automatic parsing of variable data fields from textual report data
JP2010079858A (ja) * 2008-09-29 2010-04-08 Toshiba Solutions Corp 辞書作成支援装置及びプログラム
JP2010224659A (ja) * 2009-03-19 2010-10-07 Canon Inc 情報処理装置、情報処理方法、プログラム及び記憶媒体
JP2012037790A (ja) * 2010-08-10 2012-02-23 Toshiba Corp 音声対話装置
JP2012078647A (ja) * 2010-10-04 2012-04-19 National Institute Of Information & Communication Technology 言語モデル学習装置及びコンピュータプログラム

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018503145A (ja) * 2015-11-17 2018-02-01 小米科技有限責任公司Xiaomi Inc. 情報テンプレートをマイニングする方法、その装置、プログラム、及び記録媒体
US10180976B2 (en) 2015-11-17 2019-01-15 Xiaomi Inc. Method and device for mining an information template
JP2018120401A (ja) * 2017-01-25 2018-08-02 国立大学法人 東京大学 抽出装置、抽出方法、ならびに、プログラム
JP2020135135A (ja) * 2019-02-14 2020-08-31 株式会社日立製作所 対話コンテンツ作成支援方法およびシステム
JP7297458B2 (ja) 2019-02-14 2023-06-26 株式会社日立製作所 対話コンテンツ作成支援方法

Also Published As

Publication number Publication date
JP6263420B2 (ja) 2018-01-17

Similar Documents

Publication Publication Date Title
JP6655788B2 (ja) 対訳コーパス作成方法、該装置および該プログラムならびに機械翻訳システム
Miura et al. TeamX: A sentiment analyzer with enhanced lexicon mapping and weighting scheme for unbalanced data
JP6263420B2 (ja) テンプレート生成装置及びテンプレート生成プログラム
JP2016157407A (ja) テキスト分析及び応答システムのための語彙意味パターンの事前構築方法
Al-Debagy et al. A new decomposition method for designing microservices
Francisca et al. Adapting rule based machine translation from english to bangla
CN110532487B (zh) 标签的生成方法及装置
Kumar et al. Sanskrit compound processor
JP2020106880A (ja) 情報処理装置、モデル作成方法及びプログラム
JP2019211974A (ja) 企業分析装置
KR102206742B1 (ko) 자연언어 텍스트의 어휘 지식 그래프 표현 방법 및 장치
Kostareva et al. Using Ontology-Driven Methods to Develop Frameworks for Tackling NLP Problems.
KR20200086586A (ko) 온톨로지 기반의 프레임을 이용한 지식 추출 시스템
WO2021205639A1 (ja) オントロジを用いた文章データ解析情報生成装置、文章データ解析情報生成方法、および文章データ解析情報生成プログラム
KR102474042B1 (ko) 데이터 마이닝을 이용한 질병 연관성 분석 방법
JPWO2018174000A1 (ja) 構成管理装置、構成管理方法および構成管理プログラム
JP7014301B2 (ja) 情報処理装置、分析システム、分析方法及び分析プログラム
Vu-Manh et al. Improving Vietnamese dependency parsing using distributed word representations
JP2022165476A (ja) 設備id推論方法および設備id推論装置
US20180011833A1 (en) Syntax analyzing device, learning device, machine translation device and storage medium
JP5302784B2 (ja) 機械翻訳方法、及びシステム
JP4940251B2 (ja) 文書処理プログラム及び文書処理装置
JP2016051367A (ja) データ解析装置、データ解析方法、および、プログラム。
WO2016190063A1 (ja) 情報処理装置、および情報処理方法、並びにプログラム
JP5600826B1 (ja) 非構造化データ処理システム、非構造化データ処理方法およびプログラム

Legal Events

Date Code Title Description
RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20151113

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20160720

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20170502

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20170512

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170622

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20171205

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20171218

R150 Certificate of patent or registration of utility model

Ref document number: 6263420

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees