JP7084761B2 - 文生成装置、文生成方法及び文生成プログラム - Google Patents
文生成装置、文生成方法及び文生成プログラム Download PDFInfo
- Publication number
- JP7084761B2 JP7084761B2 JP2018075610A JP2018075610A JP7084761B2 JP 7084761 B2 JP7084761 B2 JP 7084761B2 JP 2018075610 A JP2018075610 A JP 2018075610A JP 2018075610 A JP2018075610 A JP 2018075610A JP 7084761 B2 JP7084761 B2 JP 7084761B2
- Authority
- JP
- Japan
- Prior art keywords
- sentence
- word
- keyword
- unknown word
- unknown
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
Description
また、再帰型ニューラルネットワーク(RNN: Recurrent Neural Network)、n-gram又は隠れマルコフモデル等の言語モデルに基づいて、元の単語に対して尤もらしい文を生成する手法が提案されている(例えば、非特許文献2参照)。
さらに、複数の単語を入力とし、これらの単語を含む文を生成する手法が提案されている(例えば、特許文献1及び非特許文献3参照)。
以下、本発明の第1実施形態について説明する。
本実施形態に係る文生成装置1は、例えば、人と一緒にテレビを視聴するコミュニケーションロボットに組み込まれ、入力文Iに対し、新たに文を生成し、出力文Oとして出力する。
文生成装置1は、制御部10及び記憶部20の他、各種インタフェースを備えた情報処理装置であり、記憶部20に格納されたソフトウェア(文生成プログラム)を制御部10が実行することにより、本実施形態の各種機能が実現される。
また、入力文Iは、字幕文に限ったものではなく、ロボットに装備されたカメラ又はマイクロフォンを用いて、テレビの画像から画像処理によりオープンキャプションが取得されてもよいし、音声から音声認識により抽出されてもよい。
また、記憶部20は、分かち書き辞書21と、キーワード辞書22と、文生成学習データ23とを備える。文生成学習データ23は、文生成辞書231と、文生成モデル232とを含む。
形態素解析手法としては、例えば、MeCab(http://taku910.github.io/mecab/)が利用できる。また、分かち書き処理部11が参照する分かち書き辞書21としては、Neologd(https://github.com/neologd/mecab-ipadic-neologd)等が利用できる。例えば、Neologdでは、インターネット等で使われている固有名詞等を収集して辞書が更新されている。分かち書き処理部11は、分かち書き辞書21として、このような辞書を用いることで、日々増え続ける新たな単語を判別して、分かち書きすることができる。
このとき、キーワード抽出部12は、キーワード辞書22に含まれる語が分かち書きされた入力文Iの中に含まれるか否かを検索し、このキーワード辞書22に含まれる語を入力文Iからキーワードとして抽出する。
なお、キーワード辞書22は、分かち書き辞書21の語の中から、キーワードとして使用するものを事前に選択することで作られた辞書である。
このとき、未知語予測部14は、入力文Iに含まれる他の語との並び順も考慮した共起性に基づいて、予測語を選択する。具体的には、文を生成するための各語の出現確率を学習した文生成学習データ23を用いて、入力文Iにおいてキーワードを置換した場合の文全体の尤度が最も大きい予測語を選択する。なお、未知語予測処理の詳細は、後述する。
この例は、入力文Iとして「おいしそうなひっつみですね」が入力され、出力文Oとして「ひっつみを食べたいな」を出力するまでの処理手順を示している。
ここでは、文生成学習データ23の学習アルゴリズムとしてRNNを利用するものとする。
M次元の入力層の各要素は、文生成辞書231の各語と1対1に対応しており、本実施形態では、M個の要素のうち1つだけが入力される。ここでは、単語「おいし」に対応する入力層の要素だけが入力された例を示している。
入力層に入力された単語に対して、出力層で出力される各単語の確率pは、入力層と隠れ層との間の重み行列W、隠れ層と出力層の間の重み行列V、及び1ステップ前の隠れ層と今の隠れ層との間の重み行列Hから計算される。これらの行列W、V、Hは、様々な文における単語の列をRNNに入力し、出力の誤差を小さくすることで求めることができる。これらの行列W、V、Hは、予め学習済みであり、文生成モデル232に保管されているものとする。
この例では、分かち書き処理された「おいし/そう/な/うどん/です/ね」という文の尤度の計算方法を示している。ここで、分かち書きされた文は、文生成辞書231にある単語(既知語)で構成されているとする。
ここでは、分かち書き処理された文「おいし/そう/な/ひっつみ/です/ね」を例として動作を説明する。この例では、単語「ひっつみ」は未知語であり、分かち書き辞書21及びキーワード辞書22には含まれるが、文生成辞書231に含まれない単語であるとする。
この例では、出現確率p(うどん)、p(そば)、p(ラーメン)が高く、予測語の候補Xとして、「うどん」、「そば」、「ラーメン」の3語が選択されている。
そして、未知語予測部14は、図4に示した尤度の計算方法に従って、「うどん」、「です」、「ね」を入力し、文「おいしそうなうどんですね」の尤度(pうどん)、「そば」、「です」、「ね」を入力して、文「おいしそうなそばですね」の尤度(pそば)、「ラーメン」、「です」、「ね」を入力して、文「おいしそうなラーメンですね」の尤度(pラーメン)を求める。
未知語予測部14は、これらの3つの尤度(pうどん、pそば、pラーメン)の中から、最も大きい尤度の文に用いた予測語の候補を、未知語に対する予測語として決定する。
ここでは、未知語に対する予測語「うどん」を元に、RNNを用いて文を生成した例を示している。
したがって、文生成装置1は、入力文Iに含まれるキーワードから文を生成する際に、キーワードが学習済みの辞書にない未知語の場合であっても、このキーワードを含む文を生成できる。
また、文生成装置1は、文生成に用いる学習モデルを未知語予測処理に用いることで、文生成処理との親和性を高め、リソースを有効活用して実装を容易にできる。
以下、本発明の第2実施形態について説明する。
本実施形態において、文生成装置1の機能構成は、第1実施形態と同様であるが、未知語予測部14の処理が第1実施形態とは異なる。
これに加え、本実施形態では、未知語予測部14は、分かち書き文の文末から文頭へ順に語を入力して学習した学習済みモデルを併用し、それぞれを用いて、2方向のRNNにより尤度を算出する。
図7の上部が、文末から文頭へ(Reverse方向へ)順に語を入力するRNNのモデルを使って文の尤度を算出する方法を示し、図7の下部が、第1実施形態(図5)と同様に文頭から文末へ(Forward方向へ)順に語を入力するRNNのモデルを使って文の尤度を算出する方法を示している。
この例では、Forward方向も、Reverse方向も、共に1文で比較したが、図5で説明したように、2方向それぞれで複数の予測語の候補に対して文の尤度を算出し、全体の中で最大の尤度となった文が選択されてもよい。
また、例えば、未知語予測部14は、同一の候補を用いた文の2方向の尤度を平均し、平均値が最大の候補を予測語として選択してもよい。
なお、文生成装置1は、例えば入力文Iの中の未知語の位置等に応じて、Forward方向又はReverse方向のいずれか一方を決定し、処理負荷を低減してもよい。
以下、本発明の第3実施形態について説明する。
本実施形態において、文生成装置1の機能構成は、第1及び第2実施形態と同様であるが、未知語予測部14の処理が第1及び第2実施形態とは異なる。
例えば、文生成装置1は、非特許文献1のように、過去に収集したテレビ番組の字幕文等からテンプレート文と語彙とを学習し、語彙の共起性を使って、テンプレート文とキーワードとの組み合わせを決定することで、キーワードから文を生成してもよい。
語彙の共起性は、例えば、Word2vec(黒橋禎夫、柴田知秀、“自然言語処理概論”、サイエンス社(2016))により求められる。
ここでは、文生成学習データ23の学習アルゴリズムとして、Word2vecを利用するものとする。
Word2vecは、M次元の入力層、N次元の隠れ層、M次元の出力層からなるニューラルネットワークである。入力層及び出力層の次元数Mは、文生成辞書231の語彙数である。隠れ層の次元数Nは、学習時に予め設定しておく任意の値であり、例えば200次元等が使われる。
図8の例では、「おいし/そう/な/ひっつみ/ですね」の分かち書き文に対して、未知語「ひっつみ」を除く、「おいし」、「そう」、「な」「ですね」が入力層に与えられている。結果として、ラーメンの出現確率p(ラーメン)が一番大きく、未知語「ひっつみ」の予測語として「ラーメン」が選択される。
10 制御部
11 分かち書き処理部
12 キーワード抽出部
13 未知語判定部
14 未知語予測部
15 文生成部
16 未知語置換部
20 記憶部
21 分かち書き辞書
22 キーワード辞書
23 文生成学習データ
231 文生成辞書
232 文生成モデル
Claims (6)
- 入力文から、所定の辞書に含まれているキーワードを抽出するキーワード抽出部と、
学習モデルに基づき、前記キーワードを用いた新たな出力文を生成する文生成部と、
前記キーワードが前記学習モデルの語彙に含まれる既知語であるか、又は前記学習モデルの語彙に含まれない未知語であるかを判定する未知語判定部と、
前記キーワードが未知語である場合、前記学習モデルに基づいて、前記既知語の中から前記入力文において当該キーワードを置換可能な予測語を選択し、当該予測語を前記キーワードの代わりに前記文生成部へ提供する未知語予測部と、
前記出力文の中に前記予測語が含まれる場合、当該予測語を元の未知語に置換する未知語置換部と、を備える文生成装置。 - 前記未知語予測部は、前記入力文に含まれる語との共起性に基づいて、前記予測語を選択する請求項1に記載の文生成装置。
- 前記未知語予測部は、前記入力文において前記キーワードを置換した場合の文全体の尤度に基づいて、前記予測語を選択する請求項2に記載の文生成装置。
- 前記未知語予測部は、文頭から文末へ順に語を入力した場合の学習モデル、及び文末から文頭へ順に語を入力した場合の学習モデルのそれぞれを用いて、前記尤度を算出する請求項3に記載の文生成装置。
- 入力文から、所定の辞書に含まれているキーワードを抽出するキーワード抽出ステップと、
学習モデルに基づき、前記キーワードを用いた新たな出力文を生成する文生成ステップと、
前記キーワードが前記学習モデルの語彙に含まれる既知語であるか、又は前記学習モデルの語彙に含まれない未知語であるかを判定する未知語判定ステップと、
前記キーワードが未知語である場合、前記学習モデルに基づいて、前記既知語の中から前記入力文において当該キーワードを置換可能な予測語を選択し、当該予測語を前記キーワードの代わりに前記文生成ステップへ提供する未知語予測ステップと、
前記出力文の中に前記予測語が含まれる場合、当該予測語を元の未知語に置換する未知語置換ステップと、をコンピュータが実行する文生成方法。 - 入力文から、所定の辞書に含まれているキーワードを抽出するキーワード抽出ステップと、
学習モデルに基づき、前記キーワードを用いた新たな出力文を生成する文生成ステップと、
前記キーワードが前記学習モデルの語彙に含まれる既知語であるか、又は前記学習モデルの語彙に含まれない未知語であるかを判定する未知語判定ステップと、
前記キーワードが未知語である場合、前記学習モデルに基づいて、前記既知語の中から前記入力文において当該キーワードを置換可能な予測語を選択し、当該予測語を前記キーワードの代わりに前記文生成ステップへ提供する未知語予測ステップと、
前記出力文の中に前記予測語が含まれる場合、当該予測語を元の未知語に置換する未知語置換ステップと、をコンピュータに実行させるための文生成プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018075610A JP7084761B2 (ja) | 2018-04-10 | 2018-04-10 | 文生成装置、文生成方法及び文生成プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018075610A JP7084761B2 (ja) | 2018-04-10 | 2018-04-10 | 文生成装置、文生成方法及び文生成プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2019185400A JP2019185400A (ja) | 2019-10-24 |
JP7084761B2 true JP7084761B2 (ja) | 2022-06-15 |
Family
ID=68341329
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018075610A Active JP7084761B2 (ja) | 2018-04-10 | 2018-04-10 | 文生成装置、文生成方法及び文生成プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7084761B2 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111325002A (zh) * | 2020-02-17 | 2020-06-23 | 广东博智林机器人有限公司 | 文本生成方法、装置、电子设备及存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008129318A (ja) | 2006-11-21 | 2008-06-05 | Nippon Hoso Kyokai <Nhk> | 言語モデル作成装置及び言語モデル作成プログラム並びに音声認識装置及び音声認識プログラム |
JP2008225963A (ja) | 2007-03-14 | 2008-09-25 | National Institute Of Information & Communication Technology | 機械翻訳装置、置換辞書生成装置、機械翻訳方法、置換辞書生成方法、及びプログラム |
JP2016024325A (ja) | 2014-07-18 | 2016-02-08 | 日本放送協会 | 言語モデル生成装置、およびそのプログラム、ならびに音声認識装置 |
WO2016067418A1 (ja) | 2014-10-30 | 2016-05-06 | 三菱電機株式会社 | 対話制御装置および対話制御方法 |
JP2016161968A (ja) | 2015-02-26 | 2016-09-05 | 日本電信電話株式会社 | 単語ベクトル学習装置、自然言語処理装置、方法、及びプログラム |
-
2018
- 2018-04-10 JP JP2018075610A patent/JP7084761B2/ja active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008129318A (ja) | 2006-11-21 | 2008-06-05 | Nippon Hoso Kyokai <Nhk> | 言語モデル作成装置及び言語モデル作成プログラム並びに音声認識装置及び音声認識プログラム |
JP2008225963A (ja) | 2007-03-14 | 2008-09-25 | National Institute Of Information & Communication Technology | 機械翻訳装置、置換辞書生成装置、機械翻訳方法、置換辞書生成方法、及びプログラム |
JP2016024325A (ja) | 2014-07-18 | 2016-02-08 | 日本放送協会 | 言語モデル生成装置、およびそのプログラム、ならびに音声認識装置 |
WO2016067418A1 (ja) | 2014-10-30 | 2016-05-06 | 三菱電機株式会社 | 対話制御装置および対話制御方法 |
US20170199867A1 (en) | 2014-10-30 | 2017-07-13 | Mitsubishi Electric Corporation | Dialogue control system and dialogue control method |
JP2016161968A (ja) | 2015-02-26 | 2016-09-05 | 日本電信電話株式会社 | 単語ベクトル学習装置、自然言語処理装置、方法、及びプログラム |
Non-Patent Citations (3)
Title |
---|
今村 賢治、外1名,双方向リランキングとアンサンブルを併用したニューラル機械翻訳における複数モデルの利用法,情報処理学会 研究報告 自然言語処理(NL),日本,情報処理学会,2017年10月17日,p.1-8 |
尾形 朋哉、外3名,キーワードに基づくニューラル文生成のためのリランキング,言語処理学会第23回年次大会 発表論文集 [online],日本,言語処理学会,2017年07月07日,p.679-682 |
水上 仁志、外1名,統計的機械翻訳における未知の一般語と固有名への対処,言語処理学会第23回年次大会 発表論文集 [online],日本,言語処理学会,2017年07月07日,p.1042-1045 |
Also Published As
Publication number | Publication date |
---|---|
JP2019185400A (ja) | 2019-10-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10347244B2 (en) | Dialogue system incorporating unique speech to text conversion method for meaningful dialogue response | |
CN106297800B (zh) | 一种自适应的语音识别的方法和设备 | |
US20210183373A1 (en) | System and Method for Streaming end-to-end Speech Recognition with Asynchronous Decoders | |
JPH05289692A (ja) | ワードを予測する会話認識装置用言語生成装置及び方法 | |
Prabhavalkar et al. | Less is more: Improved rnn-t decoding using limited label context and path merging | |
US11961515B2 (en) | Contrastive Siamese network for semi-supervised speech recognition | |
WO2019167296A1 (ja) | 自然言語処理のための装置、方法及びプログラム | |
US11715458B2 (en) | Efficient streaming non-recurrent on-device end-to-end model | |
KR20200026295A (ko) | 음절 기반 자동 음성 인식 | |
Nasereddin et al. | Classification techniques for automatic speech recognition (ASR) algorithms used with real time speech translation | |
US11315548B1 (en) | Method and system for performing domain adaptation of end-to-end automatic speech recognition model | |
KR20240053639A (ko) | 제한된 스펙트럼 클러스터링을 사용한 화자-턴 기반 온라인 화자 구분 | |
Kaushik et al. | Automatic audio sentiment extraction using keyword spotting. | |
Moriya et al. | LSTM language model adaptation with images and titles for multimedia automatic speech recognition | |
CN116912642A (zh) | 基于双模多粒度交互的多模态情感分析方法、设备及介质 | |
JP6810580B2 (ja) | 言語モデル学習装置およびそのプログラム | |
Ren et al. | Speech pre-training with acoustic piece | |
JP2019219827A (ja) | 言語モデル学習装置およびそのプログラム、ならびに、単語推定装置およびそのプログラム | |
Zhang et al. | Cacnet: Cube attentional cnn for automatic speech recognition | |
JP7084761B2 (ja) | 文生成装置、文生成方法及び文生成プログラム | |
Khassanov et al. | Enriching rare word representations in neural language models by embedding matrix augmentation | |
Alsayadi et al. | Dialectal Arabic speech recognition using CNN-LSTM based on end-to-end deep learning | |
Granell et al. | Multimodal output combination for transcribing historical handwritten documents | |
Fenghour et al. | Disentangling homophemes in lip reading using perplexity analysis | |
Djeffal et al. | Automatic speech recognition with BERT and CTC transformers: A review |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210308 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20220325 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20220510 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20220603 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7084761 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |