JP7343050B2 - 学習用データ生成装置、判定装置、学習用データ生成方法、判定方法、プログラム - Google Patents
学習用データ生成装置、判定装置、学習用データ生成方法、判定方法、プログラム Download PDFInfo
- Publication number
- JP7343050B2 JP7343050B2 JP2022524838A JP2022524838A JP7343050B2 JP 7343050 B2 JP7343050 B2 JP 7343050B2 JP 2022524838 A JP2022524838 A JP 2022524838A JP 2022524838 A JP2022524838 A JP 2022524838A JP 7343050 B2 JP7343050 B2 JP 7343050B2
- Authority
- JP
- Japan
- Prior art keywords
- sentence
- pseudo
- sentences
- input format
- unnecessary
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/253—Grammatical analysis; Style critique
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Description
まず、つながりが自然であるか否かを判断したい文(以下、本文という)を含み、本文よりも少し長い程度の文(以下、文書という、文書は例えば一つの短文、一つの段落程度の長さとすることができる)から、N個(Nは1以上の整数)の文(以下、N文ともいう)を抽出して本文とする。文書の例を図1の左側の枠内の文書として、本文の例を太字で例示する。
次に、文書の本文以外の箇所から不要な文(以下、不要文という)として挿入する文を選択する。選択はランダムに行われてもよいし、他の基準で行われてもよい(詳細は後述)。不要文の例を同図に下線で示す。
次に、不要文を本文中の何れかの文と文の間(文間)に挿入する。挿入位置はランダムに決定されてもよいし、他の基準で決定されてもよい(詳細は後述)。このように生成した複数の文を疑似問題と呼び、疑似問題と本文、不要文、不要文の挿入位置を紐づけて、ラベルを付して学習用データとして保持する。
図3、図4は、疑似問題をBERT/XLNet入力フォーマットに変換した例を示す図である。入力フォーマットというのは、図3、図4に示すtokensの形式のことである。ここで、CLSは文頭、SEPはセパレータを示すIDである。
以下、図5を参照して、実施例1の学習用データ生成装置1の構成を説明する。同図に示すように本実施例の学習用データ生成装置1は、文書データベース10と、本文抽出部11と、不要文選択部12と、不要文挿入部13と、疑似問題データベース14と、第1学習用データ生成部15と、第2学習用データ生成部16を含む。
文書データベース10には、あらかじめ一般的な文書が蓄積されている。蓄積される文書は例えばWEB上から取得することができる。文書の長さが指定する範囲に含まれる場合、同図に示すステップS11~S14が実行される。
本文抽出部11は、文書データベース10に蓄積された文書のうちのいずれかの文書を入力とし、文書の一部であって、疑似問題に未使用の連続するN文を本文として抽出し、本文を出力する(S11)。
不要文選択部12は、ステップS11の処理を実行した文書と、ステップS11で抽出された本文を入力とし、文書のうち本文に含まれない一文を不要文として選択し、不要文を出力する(S12)。なお、不要文選択部12は、不要文をランダムに選択してもよいし、文書のうちの本文に含まれない一文のうち、本文との文間類似度が高い一文を不要文として選択してもよい(後述するステップS121~S125を参照)。
不要文挿入部13は、ステップS11で出力された本文と、ステップS12で出力された不要文を入力とし、本文の何れかの文間に不要文を挿入して疑似問題を生成し、疑似問題と、不要文の挿入位置を出力する(S13)。なお、不要文挿入部13は、不要文の挿入位置をランダムに決定してもよいし、本文のうちの隣接する文のペアのうち、不要文との文間類似度が高いペアの間に不要文を挿入してもよい(後述するステップS131~S135を参照)。
疑似問題データベース14は、ステップS13で出力された疑似問題と、不要文の挿入位置とを入力とし、疑似問題と、不要文の挿入位置とを紐づけて蓄積する(S14)。
ステップS11で指定された文書に本文として使用していない連続するN文が存在する場合、ステップS11~S14が繰り返し実行される。
以下、図7を参照して、不要文選択部12の詳細な構成例を示す。同図に示すように、本実施例の不要文選択部12は、第1文ベクトル算出部121と、第2文ベクトル算出部122と、文間類似度算出部123と、一時保持部124と、選択部125を含む。
第1文ベクトル算出部121は、本文を入力とし、本文の文ベクトルを算出し、本文の文ベクトルを出力する(S121)。
第2文ベクトル算出部122は、文書と本文を入力とし、文書中の本文以外の、まだ文ベクトルを算出していない文を一文選択し、文ベクトルを算出し、文ベクトルを出力する(S122)。
文間類似度算出部123は、ステップS121で算出された本文の文ベクトルと、ステップS122で算出された一文の文ベクトルを入力とし、本文の文ベクトルと一文の文ベクトルから文間類似度を算出し、文間類似度を出力する(S123)。
一時保持部124は、ステップS122で文ベクトルの算出対象となった一文と、対応する文間類似度を入力とし、ステップS122で文ベクトルの算出対象となった一文が最初の文である場合、または、ステップS122で文ベクトルの算出対象となった一文の本文との文間類似度が、これまでの一文の本文との文間類似度よりも高い場合、対象の一文を本文との文間類似度が最大のものとして保持する(S124)。
選択部125は、文間類似度が最大のものとして保持されている一文を入力とし、これを不要文として選択して、出力する(S125)。
以下、図9を参照して、不要文挿入部13の詳細な構成例を示す。同図に示すように、本実施例の不要文挿入部13は、不要文ベクトル算出部131と、隣接文ベクトル算出部132と、文間類似度算出部133と、一時保持部134と、選択部135を含む。
不要文ベクトル算出部131は、不要文を入力とし、不要文の文ベクトルを算出し、不要文の文ベクトルを出力する(S131)。
隣接文ベクトル算出部132は、本文を入力とし、本文中の、まだ文ベクトルを算出していない隣接する文のペアを選択し、隣接する文の各文ベクトルを算出し、隣接する文の各文ベクトルを出力する(S132)。
文間類似度算出部133は、ステップS131で算出された不要文の文ベクトルと、ステップS132で算出された隣接する文の各文ベクトルを入力とし、不要文の文ベクトルと隣接する文の各文ベクトルから文間類似度を算出し、文間類似度を出力する(S133)。
ステップS133の詳細な処理方法を以下に示す。不要文の文ベクトルをベクトル1とした場合、2つの方法が考えられる。
方法1)隣接する文ペア(文1,文2)の文ベクトルを足し合わせた(もしくは平均値をとった)値をベクトル2とする。文間類似度算出部133は、ベクトル1とベクトル2の文間類似度(たとえばコサイン類似度)を算出して出力する。
方法2)隣接する文ペア(文1,文2)の各文ベクトルを算出し、ベクトル4、ベクトル5とする。文間類似度算出部133は、ベクトル1とベクトル4、ベクトル1とベクトル5の文間類似度をそれぞれ算出し、その平均値を文間類似度として出力する。
一時保持部134は、ステップS133で算出された文間類似度と、これに対応する隣接する文を入力とし、ステップS133が一回目の処理である場合、または、ステップS133で算出された文間類似度が、これまでの文間類似度よりも高い場合、対象の隣接する文の間の地点を文間類似度が最大の地点として保持する(S134)。
選択部135は、本文と、不要文と、文間類似度が最大のものとして保持されている地点を入力とし、当該地点を不要文の挿入位置として選択し、本文に不要文を挿入して、疑似問題を生成し、出力する(S135)。
図10は、ステップS132を最初に繰り返すことで、本文中の全ての隣接する文のペアについて文ベクトルをまとめて算出する手法であるが、これに限定されず、ステップS132において、一つの隣接する文のペアに対して文ベクトルを算出した後、ステップS133において対応する文間類似度を算出し、算出した文間類似度が保持している文間類似度よりも高い場合、あるいは、文間類似度の算出が初回である場合に、ステップS134の保持を行い、次の隣接する文のペアに対して文ベクトルを算出して、対応する文間類似度を算出し、算出した文間類似度が保持している文間類似度よりも高い場合に、ステップS134の保持を行い、…という処理を繰り返し実行してもよい。
第1学習用データ生成部15は、疑似問題データベース14に蓄積された疑似問題を入力とし、この疑似問題の不要文の前後に存在する文章のつながりが自然であることを意味する第1のラベルを当該疑似問題に付して、第1の学習用データを生成し、第1の学習用データを出力する(S15)。
第2学習用データ生成部16は、疑似問題データベース14に蓄積された疑似問題を入力とし、この疑似問題の本文のうちの一文の前後に存在する文章のつながりが不自然であることを意味する第2のラベルを当該疑似問題に付して、第2の学習用データを生成し、第2の学習用データを出力する(S16)。
上記の第1学習用データ生成部15と第2学習用データ生成部16で使用された入力フォーマット(一文を選び出し、選び出した文の前後の文を連結)は、あくまで一例である。上記の例に限定されず、学習用データ生成装置1の学習用データ生成部は、所定の入力フォーマットに従った文章と、文章のつながりが自然であるか不自然であるかのラベルを含むように、学習用データを生成すればよい。所定の入力フォーマットの例(入力フォーマット(1)~(5))については後述する。
以下、図12を参照して、実施例1の判定装置2の構成を説明する。同図に示すように本実施例の判定装置2は、入力フォーマット作成部21と、判定器21Aと、尤度取得部22と、判定部23を含む。
入力フォーマット作成部21は、判定対象の文章を入力とし、判定対象の文章から所定の入力フォーマットに従った判定用データを作成して、当該判定用データを出力する(S21)。所定の入力フォーマットのバリエーション(入力フォーマット(1)~(5))については後述する。
判定器21Aは、所定の入力フォーマットに従った文章と、文章のつながりが自然であるか不自然であるかのラベルを含む学習用データを用いて予め学習されているものとし、ステップS21で作成した判定用データを入力とし、判定対象の文章のつながりが自然であるか否かの尤度を出力する(S21A)。
尤度取得部22は、判定器21Aから判定対象の文章のつながりが自然であるか否かの尤度を取得して、当該尤度を出力する(S22)。
判定部23は、尤度を入力として、尤度に基づいて判定対象の文章のつながりが自然であるか否かを判定し、判定結果を出力する(S23)。ステップS23に関しては、図13に示す動作例1のように、尤度とあらかじめ定めた閾値を比較して、尤度が閾値以上とならない場合に、判定対象の文章を自然な文でないと判定し(S23-1)、尤度が閾値以上となる場合に、判定対象の文章を自然な文であると判定してもよい(S23-2)。
以下、図15を参照してBERTについて説明する。BERTには、大量の自然文書を学習させたPretrainedモデル(汎用言語モデル)と、2文の結束性や含意関係、系列ラベリングなどを判定できるように適応(転移学習)させたfinetuneモデルの2種類が存在する。なお、BERTの出力は、クラスと尤度である。
引き続き図15を参照して、本実施例におけるBERTの応用方法を説明する。BERTを用いて、文全体のつながりが自然かどうかを判定するようにデータおよび判定器を作成する場合、<BERT>で説明した、BERTの結束性判定の転移学習を行う入力形式を用いて、今回あらたに作成したデータを学習させる。
1つの方法は、入力フォーマットごとに異なる判定器を作成する方法である。
入力フォーマット(1)は、図16に示すように、疑似問題のうちの一文を選択して、選択した文を除く疑似問題全体と選択した文とを連結して生成する。このフォーマットを用いることにより、文書全体と選択した文の類似性や含意関係が学習され、無関係な文に対して、不要を判断できる。
入力フォーマット(2)は、図16に示すように、疑似問題の各文を各選択肢とし、各選択肢から選びだした一つの文と、選び出されなかったすべての選択肢からなる選択肢群とを連結して生成する。このフォーマットを用いることにより、文書全体ではなく、選択肢のみに限定し比較することで、選択肢間の違いを分類する学習が効率的に行える。
入力フォーマット(3)は、図17に示すように、疑似問題のうちの一文を選択して、疑似問題のうちの選択した文よりも前に存在する文と、選択した文と、疑似問題のうちの選択した文よりも後に存在する文とを連結して生成する。このフォーマットを用いることにより、選択した文の前後のつながりの自然さを評価できる。
入力フォーマット(4)は、図18に示すように、疑似問題のうちの一文を選択して、疑似問題のうちの選択した文よりも前に存在する文と、疑似問題のうちの選択した文よりも後に存在する文とを連結して生成する。入力フォーマット(4)-1は、選択した文よりも後に存在する文にSegmentID=1を付すことにより、選択した文を抜いたときの後ろにつながる文としての妥当性を表現できる。入力フォーマット(4)-2は、全体にSegmentID=0を付すことにより、選択した文を抜いたときの全体のつながりの自然さを表現できる。
入力フォーマット(5)は、図19に示すように、疑似問題のうちの一文を選択して、疑似問題のうちの選択した文よりも前に存在するN個(Nは1以上の整数)の文と、選択した文および選択した文よりも後に存在するN個の文を含む文とを連結した入力フォーマットAと、疑似問題のうちの選択した文よりも前に存在するN個(Nは1以上の整数)の文と、選択した文よりも後に存在するN+1個の文を含む文とを連結した入力フォーマットBの双方からなる。
(判定対象の文章、不要かどうか判定する一文、不要かどうか判定する一文の位置)を生成し、自然かどうかの尤度を算出する。尤度が閾値以下であれば、不要な文と判断する。択一式の問題であれば、尤度の算出を各文に対して実施し、最も尤度が低い文を不要な文であると判定する。
(判定対象の文章、必要かどうか判定する一文、必要かどうか判定する一文の位置)を生成し、自然かどうかの尤度を算出する。尤度が閾値以上であれば、必要な文と判断する。択一式の問題であれば、尤度の算出を各文に対して実施し、最も尤度が高い文を必要な文であると判定する。
(判定対象の文章、判定対象の文章から選択した任意の一文、判定対象の文章から選択した任意の一文の位置)を判定対象の文章中の任意の文全てについて生成し、それぞれの自然かどうかの尤度を算出する。尤度が閾値以上であれば、判定対象の文章が自然な文章であると判定する。
本発明の装置は、例えば単一のハードウェアエンティティとして、キーボードなどが接続可能な入力部、液晶ディスプレイなどが接続可能な出力部、ハードウェアエンティティの外部に通信可能な通信装置(例えば通信ケーブル)が接続可能な通信部、CPU(Central Processing Unit、キャッシュメモリやレジスタなどを備えていてもよい)、メモリであるRAMやROM、ハードディスクである外部記憶装置並びにこれらの入力部、出力部、通信部、CPU、RAM、ROM、外部記憶装置の間のデータのやり取りが可能なように接続するバスを有している。また必要に応じて、ハードウェアエンティティに、CD-ROMなどの記録媒体を読み書きできる装置(ドライブ)などを設けることとしてもよい。このようなハードウェア資源を備えた物理的実体としては、汎用コンピュータなどがある。
Claims (9)
- 文書の一部を本文として抽出する本文抽出部と、
前記文書のうち前記本文に含まれない一文を不要文として選択する不要文選択部と、
前記本文に前記不要文を挿入して疑似問題を生成する不要文挿入部と、
前記不要文の前後に存在する文章のつながりが自然であることを意味する第1のラベルを前記疑似問題に付して、第1の学習用データを生成する第1学習用データ生成部と、
前記本文のうちの一文の前後に存在する文章のつながりが不自然であることを意味する第2のラベルを前記疑似問題に付して、第2の学習用データを生成する第2学習用データ生成部を含む
学習用データ生成装置。 - 文書の一部を本文として抽出する本文抽出部と、
前記文書のうち前記本文に含まれない一文を不要文として選択する不要文選択部と、
前記本文に前記不要文を挿入して疑似問題を生成する不要文挿入部と、
所定の入力フォーマットに従った文章と、前記文章のつながりが自然であるか不自然であるかのラベルを含む学習用データを生成する学習用データ生成部を含み、
前記入力フォーマットは、
前記疑似問題のうちの一文を選択して、選択した文を除く前記疑似問題全体と前記選択した文とを連結した第1の入力フォーマット、または
前記疑似問題の各文を各選択肢とし、各選択肢から選びだした一つの文と、選び出されなかったすべての選択肢からなる選択肢群とを連結した第2の入力フォーマット、または
前記疑似問題のうちの一文を選択して、前記疑似問題のうちの選択した文よりも前に存在する文と、前記選択肢と、前記疑似問題のうちの前記選択した文よりも後に存在する文とを連結した第3の入力フォーマット、または
前記疑似問題のうちの一文を選択して、前記疑似問題のうちの前記選択した文よりも前に存在する文と、前記疑似問題のうちの前記選択した文よりも後に存在する文とを連結した第4の入力フォーマット、または
前記疑似問題のうちの一文を選択して、前記疑似問題のうちの前記選択した文よりも前に存在するN個(Nは1以上の整数)の文と、前記選択した文および前記選択した文よりも後に存在するN個の文を含む文とを連結した入力フォーマットAと、前記疑似問題のうちの前記選択した文よりも前に存在するN個(Nは1以上の整数)の文と、前記選択した文よりも後に存在するN+1個の文を含む文とを連結した入力フォーマットBの双方からなる第5の入力フォーマット、のいずれかである
学習用データ生成装置。 - 請求項1または2に記載の学習用データ生成装置であって、
前記不要文選択部は、
前記文書のうちの前記本文に含まれない一文のうち、前記本文との文間類似度が高い一文を前記不要文として選択する
学習用データ生成装置。 - 請求項1から3の何れかに記載の学習用データ生成装置であって、
前記不要文挿入部は、
前記本文のうちの隣接する文のペアのうち、前記不要文との文間類似度が高いペアの間に前記不要文を挿入する
学習用データ生成装置。 - 所定の入力フォーマットに従った文章と、前記文章のつながりが自然であるか不自然であるかのラベルを含む学習用データを用いて学習された判定器と、
判定対象の文章から前記所定の入力フォーマットに従った判定用データを作成して前記判定器に入力する入力フォーマット作成部と、
前記判定器から前記判定対象の文章のつながりが自然であるか否かの尤度を取得する尤度取得部と、
前記尤度に基づいて前記判定対象の文章のつながりが自然であるか否かを判定する判定部を含み、
前記入力フォーマットは、
文書の一部を本文とし、前記文書のうち前記本文に含まれない一文である不要文を前記本文に挿入して生成した疑似問題のうちの一文を選択して、選択した文を除く前記疑似問題全体と前記選択した文とを連結した第1の入力フォーマット、または
前記疑似問題の各文を各選択肢とし、各選択肢から選びだした一つの文と、選び出されなかったすべての選択肢からなる選択肢群とを連結した第2の入力フォーマット、または
前記疑似問題のうちの一文を選択して、前記疑似問題のうちの選択した文よりも前に存在する文と、前記選択した文と、前記疑似問題のうちの前記選択した文よりも後に存在する文とを連結した第3の入力フォーマット、または
前記疑似問題のうちの一文を選択して、前記疑似問題のうちの前記選択した文よりも前に存在する文と、前記疑似問題のうちの前記選択した文よりも後に存在する文とを連結した第4の入力フォーマット、または
前記疑似問題のうちの一文を選択して、前記疑似問題のうちの前記選択した文よりも前に存在するN個(Nは1以上の整数)の文と、前記選択した文および前記選択した文よりも後に存在するN個の文を含む文とを連結した入力フォーマットAと、前記疑似問題のうちの前記選択した文よりも前に存在するN個(Nは1以上の整数)の文と、前記選択した文よりも後に存在するN+1個の文を含む文とを連結した入力フォーマットBの双方からなる第5の入力フォーマット、のいずれかである
判定装置。 - 学習用データ生成装置が実行する学習用データ生成方法であって、
文書の一部を本文として抽出するステップと、
前記文書のうち前記本文に含まれない一文を不要文として選択するステップと、
前記本文に前記不要文を挿入して疑似問題を生成するステップと、
前記不要文の前後に存在する文章のつながりが自然であることを意味する第1のラベルを前記疑似問題に付して、第1の学習用データを生成するステップと、
前記本文のうちの一文の前後に存在する文章のつながりが不自然であることを意味する第2のラベルを前記疑似問題に付して、第2の学習用データを生成するステップを含む
学習用データ生成方法。 - 所定の入力フォーマットに従った文章と、前記文章のつながりが自然であるか不自然であるかのラベルを含む学習用データを用いて学習された判定器を含む判定装置が実行する判定方法であって、
判定対象の文章から前記所定の入力フォーマットに従った判定用データを作成して前記判定器に入力するステップと、
前記判定器から前記判定対象の文章のつながりが自然であるか否かの尤度を取得するステップと、
前記尤度に基づいて前記判定対象の文章のつながりが自然であるか否かを判定するステップを含み、
前記入力フォーマットは、
文書の一部を本文とし、前記文書のうち前記本文に含まれない一文である不要文を前記本文に挿入して生成した疑似問題のうちの一文を選択して、選択した文を除く前記疑似問題全体と前記選択した文とを連結した第1の入力フォーマット、または
前記疑似問題の各文を各選択肢とし、各選択肢から選びだした一つの文と、選び出されなかったすべての選択肢からなる選択肢群とを連結した第2の入力フォーマット、または
前記疑似問題のうちの一文を選択して、前記疑似問題のうちの選択した文よりも前に存在する文と、前記選択した文と、前記疑似問題のうちの前記選択した文よりも後に存在する文とを連結した第3の入力フォーマット、または
前記疑似問題のうちの一文を選択して、前記疑似問題のうちの前記選択した文よりも前に存在する文と、前記疑似問題のうちの前記選択した文よりも後に存在する文とを連結した第4の入力フォーマット、または
前記疑似問題のうちの一文を選択して、前記疑似問題のうちの前記選択した文よりも前に存在するN個(Nは1以上の整数)の文と、前記選択した文および前記選択した文よりも後に存在するN個の文を含む文とを連結した入力フォーマットAと、前記疑似問題のうちの前記選択した文よりも前に存在するN個(Nは1以上の整数)の文と、前記選択した文よりも後に存在するN+1個の文を含む文とを連結した入力フォーマットBの双方からなる第5の入力フォーマット、のいずれかである
判定方法。 - コンピュータを請求項1から4の何れかに記載の学習用データ生成装置として機能させるプログラム。
- コンピュータを請求項5に記載の判定装置として機能させるプログラム。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2020/020334 WO2021234950A1 (ja) | 2020-05-22 | 2020-05-22 | 学習用データ生成装置、判定装置、学習用データ生成方法、判定方法、プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2021234950A1 JPWO2021234950A1 (ja) | 2021-11-25 |
JP7343050B2 true JP7343050B2 (ja) | 2023-09-12 |
Family
ID=78708372
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022524838A Active JP7343050B2 (ja) | 2020-05-22 | 2020-05-22 | 学習用データ生成装置、判定装置、学習用データ生成方法、判定方法、プログラム |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP7343050B2 (ja) |
WO (1) | WO2021234950A1 (ja) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009140411A (ja) | 2007-12-10 | 2009-06-25 | Nippon Telegr & Teleph Corp <Ntt> | 文章要約装置および文章要約方法 |
CN111078892A (zh) | 2019-11-25 | 2020-04-28 | 百度在线网络技术(北京)有限公司 | 对抗样本生成方法、装置、电子设备及存储介质 |
-
2020
- 2020-05-22 JP JP2022524838A patent/JP7343050B2/ja active Active
- 2020-05-22 WO PCT/JP2020/020334 patent/WO2021234950A1/ja active Application Filing
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009140411A (ja) | 2007-12-10 | 2009-06-25 | Nippon Telegr & Teleph Corp <Ntt> | 文章要約装置および文章要約方法 |
CN111078892A (zh) | 2019-11-25 | 2020-04-28 | 百度在线网络技术(北京)有限公司 | 对抗样本生成方法、装置、电子设备及存储介质 |
Non-Patent Citations (1)
Title |
---|
笹野遼平 他1名,文脈解析 -述語項構造・照応・談話構造の解析-,初版第2刷,株式会社コロナ社,2018年02月05日,4.6節 |
Also Published As
Publication number | Publication date |
---|---|
JPWO2021234950A1 (ja) | 2021-11-25 |
WO2021234950A1 (ja) | 2021-11-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CA2202696C (en) | Method and apparatus for language translation | |
JP6842167B2 (ja) | 要約生成装置、要約生成方法及びコンピュータプログラム | |
US10832657B2 (en) | Use of small unit language model for training large unit language models | |
JP6902945B2 (ja) | テキスト要約システム | |
JP7337770B2 (ja) | 文書レベルの自然言語処理モデルを訓練させる方法およびシステム | |
CN101266789A (zh) | 语音合成设备及方法 | |
WO2019065263A1 (ja) | 発音誤り検出装置、発音誤り検出方法、プログラム | |
JP6957967B2 (ja) | 生成プログラム、生成方法、生成装置、及びパラメータ生成方法 | |
WO2020158409A1 (ja) | 要約生成装置、方法、プログラム、及び記憶媒体 | |
WO2021117180A1 (ja) | 対話処理装置、学習装置、対話処理方法、学習方法及びプログラム | |
JP4594885B2 (ja) | 音響モデル適応装置、音響モデル適応方法、音響モデル適応プログラム及び記録媒体 | |
Zhu et al. | Semantic parser enhancement for dialogue domain extension with little data | |
JP7409381B2 (ja) | 発話区間検出装置、発話区間検出方法、プログラム | |
CN114974224A (zh) | 语音意图识别模型的训练方法、语音意图识别方法和装置 | |
CN109190112B (zh) | 基于双通道特征融合的专利分类方法、系统及存储介质 | |
JP5253317B2 (ja) | 要約文作成装置、要約文作成方法、プログラム | |
JP7343050B2 (ja) | 学習用データ生成装置、判定装置、学習用データ生成方法、判定方法、プログラム | |
Etxeberria et al. | Weighted finite-state transducers for normalization of historical texts | |
JP2011227749A (ja) | 略語完全語復元装置とその方法と、プログラム | |
CN110413779A (zh) | 一种针对电力行业的词向量训练方法及其系统、介质 | |
JP5980101B2 (ja) | 音響モデル学習用テキスト作成装置とその方法とプログラム | |
US11675978B2 (en) | Entity recognition based on multi-task learning and self-consistent verification | |
JP7235136B2 (ja) | ポーズ推定モデル学習装置、ポーズ推定装置、それらの方法、およびプログラム | |
Bhawna et al. | Natural Language Processing Based Two-Stage Machine Learning Model for Automatic Mapping of Activity Codes Using Drilling Descriptions | |
CN111324745A (zh) | 词库生成方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220817 |
|
A80 | Written request to apply exceptions to lack of novelty of invention |
Free format text: JAPANESE INTERMEDIATE CODE: A801 Effective date: 20220817 |
|
A80 | Written request to apply exceptions to lack of novelty of invention |
Free format text: JAPANESE INTERMEDIATE CODE: A80 Effective date: 20220817 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230502 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230615 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230801 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230814 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7343050 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |