JP7337770B2 - 文書レベルの自然言語処理モデルを訓練させる方法およびシステム - Google Patents
文書レベルの自然言語処理モデルを訓練させる方法およびシステム Download PDFInfo
- Publication number
- JP7337770B2 JP7337770B2 JP2020183754A JP2020183754A JP7337770B2 JP 7337770 B2 JP7337770 B2 JP 7337770B2 JP 2020183754 A JP2020183754 A JP 2020183754A JP 2020183754 A JP2020183754 A JP 2020183754A JP 7337770 B2 JP7337770 B2 JP 7337770B2
- Authority
- JP
- Japan
- Prior art keywords
- language
- model
- training
- nlg
- structured data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/55—Rule-based translation
- G06F40/56—Natural language generation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/58—Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/42—Data-driven translation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/42—Data-driven translation
- G06F40/47—Machine-assisted translation, e.g. using translation memory
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
本実施形態は、何よりも、異なるタイプの神経NLPモデル、すなわち、機械翻訳(MT)モデルを訓練させることによって文書レベルの自然言語生成(NLG)モデルを訓練させる方法、システム、およびプログラム製品を提供する。文書レベルであるMTモデルは、NLGモデルと出力(選択された言語の文書レベルのテキスト)を共有する。これは、NLGモデルを訓練させるためにMTモデルとNLGモデル間の移転学習を可能とし、これにより、NLGを訓練させるために可用あるいは不適合な訓練データの使用を可能にする。これは、特に、可用であるNLGモデルの訓練データが、MTモデル訓練データに比べて制限されている通常的な場合に有効となる。
以下の文献のいずれも従来技術を構成するものと認められてはいないが、参照としてそのすべてがここに統合される。
-Sergey Edunov,Myle Ott,Michael Auli,and David Grangier,2018.Understanding Back-Translation at Scale.In EMNLP.
-Marcin Junczys-Dowmunt.2019.Microsoft Translator at WMT 2019:Towards Large-Scale Document-Level Neural Machine Translation.In WMT-Shared Task Paper.
-Taku Kudo and John Richardson,2018.Sentence Piece:A simple and language independent subword tokenizer and detokenizer for Neural Text Processing.In EMNLP.
-Remi Lebret,David Grangier,and Michael Auli,2016.Neural Text Generation from Structured Data with Application to the Biography Domain.In EMNLP.
-Marco Lui and Timothy Baldwin,2012.Langid.py:An off-the-shelf language identification tool.In proceedings of the ACL 2012 System Demonstrations,ACL.
-Kathleen R.McKeown,1985.Text Generation:Using Discourse Strategies and Focus Constraints to Generate Natural Language Text.Cambridge University Press,New York,NY,USA.
-Hongyuan Mei,Mohit Bansal,and Matthew R Walter,2016.What to talk about and how?Selective generation using LSTMs with Coarse-to-Fine Alignment.In NAACL-HLT.
-Myle Ott,Sergey Edunov,David Grangier,and Michael Auli,2018.Scaling Neural Machine Translation.In WMT.
Ratish Puduppully,Li Dong,and Mirella Lapata,2019.Data-to-Text Generation with Content Selection and Planning.In Proceedings of the AAAI Conference on Artificial Intelligence.
-Ehud Reiter and Robert Dale,2000.Building Natural Language Generation Systems.Cambridge University Press.
-Rico Sennrich,Barry Haddow,and Alexandra Birch,2016.Neural Machine Translation of Rare Words with Subword Units.In ACL.
-Ashish Vaswani,Noam Shazeer,Niki Parmar,Jakob Uszkoreit,Llion Jones,Aidan N.Gomez,ukasz Kaiser,and Illia Polosukhin,2017.Attention is All You Need.In NIPS.
-Sam Wiseman,Stuart Shieber,and Alexander Rush,2017.Challenges in Data-to-Document Generation.In EMNLP.
本実施形態に係る方法は、図1に示した基本設計のシステム100内で実現されてよい。システム100は、1つ以上のニューラルネットワークを使用して自然言語処理(NLP)およびNLPモデルの訓練作業を実行するように構成されるプロセッサ102、例えば、コンピューティングデバイスを含む。プロセッサ102は、モデルを訓練させるために使用されるデータセットを記録する1つ以上のデータベース104と通信してよい。プロセッサ102は、単一プロセッサあるいは直列または並列で動作する複数のプロセッサを含んでよく、データベース104は、1つ以上のデータベースを含んでよい。
図3は、プロセッサ102、200によって文書レベルのNLGモデル(例えば、NLPモデル)を訓練させるための方法300の例を示した図である。
図3に示すように、訓練されたNLGモデルは、図8の方法800によって推論のためにランタイムで使用されてよい。訓練されたNLGモデルを実行するプロセッサ102は、段階802で、新たな構造化されたデータを、当該技術分野において通常の知識を有する者であれば理解できるように、例えば、他のプロセッサ(図示せず)から、または適切なインタフェースを経て、1つ以上のユーザ端末106あるいはすべての他のソースから受信する。
文書レベルのNLGモデルを訓練させる方法としては、メタデータから完全な文書を生成することができるエンドツーエンドピュアー(pure)NLGシステムを提供するように文書ベースのMTシステムを訓練させてよく、すなわち、メタデータを完全な文書に翻訳する。訓練されたエンドツーエンドNLGシステムは、データを選択および計画(planning)せず、周知のNLGデータセット(Rotowire)に対して実行される実験の古典的な方法と適切に比較されるように示されている。データは、移転学習を利用することにより、MTおよびNLG作業の両方で活用された。
実施形態に係る文書レベルの生成および翻訳(DGT)作業は、バスケットボールゲームの要約を、2つの言語(例えば、英語(EN)とドイツ語(DE))によって、ゲームに関する構造化されたデータ、他の言語のゲーム要約、またはこの両方の組み合わせとして生成することにある。このような作業は、2つのターゲット言語(英語とドイツ語)それぞれを、NLG(データツーテキスト)、MT(テキストツーテキスト)、およびMT+NLG(テキスト+データツーテキスト)のような3つのトラックに分割してよい。所期の出力テキストは、文書レベル(例えば、文章ベースの出力ではなく、完全な文書生成)となる。
文章レベルのMTモデルから訓練された文書レベルのMTモデルを提供する方法として、次の段階が含まれてよい。
原本構造化されたデータ(ここでは、メタデータ)は、ゲームあたり1つのJSON(Java Script Object Notation)文書として提供された。このような文書は、バスケットボールチームおよびチームの選手に関する情報を含む。
組み合わされたMT+NLGモデルを訓練させるための方法の例として、MTソースをNLGデータと連結した。メタデータ符号化方法は、上述したNLGモデル訓練方法と同じように使用され、(上述した段階4)の)訓練された文書レベルMTモデルが連結されたデータによって微調整された。
実験例において、WMT19-sent並列コーパスは(例えば、LuiおよびBaldwin,2012で開示されたもののような)、langid.pyによってフィルタリングされた。175個のトークンを超える文章、または1.5よりも大きい長さ比(length ratio)をもつ文章は除去された。その次に、(自然言語ツールキットの(Natural Language toolkit’s:NLTK’s)単語トークン化(word_tokenize)方法に基づく)公式的なDGTトークン化器(tokenizer)が、非トークン化されたテキスト(ここでは、DGTおよびロットワイヤではないすべてのもの)に適用された。
すべての実験的なモデルは、Fairseqモデリングツールキットによって実現された、トランスフォーマビッグ(Transformer Big)(Vaswani et al.,2017)であった。Ott et al.,2018に開示されるものと等しいハイパーパラメータが、アダムオプティマイザ(Adam optimizer)およびウォームアップを有するインバーススクエアルートスケジュール(inverse square root schedule with warmup)(最大学習率(LR)0.0005)とともに使用された。ドロップアウトおよびラベルスムーディングに0.1のレートが適用された。ソースおよびターゲット埋め込みは共有され、最後のレイヤと連結された。訓練は、8つのV100 GPU上で半精度浮動小数点数(half-precision floats)により、配置あたり最大3500個のトークンと10個の配置のディレイされたアップデートを使用して実行された。実験的な文書レベルのMTモデルのDGT訓練またはロットワイヤ+DGT訓練(段階(5))に対する微調整時または訓練されたNLGまたはMT+NLGモデルの微調整時に、実験的な方法は、固定された学習率スケジュール(0.005LRを使用するアダム(Adam))と遥かに小さい配置サイズ(ディレイされたアップデートのない単一GPU上の1500個のトークン)を使用した。このような方法は100個のエポックに対して訓練され、各エポックでDGT有効混雑度を計算し、10個のエポックごとにDGT有効BLEUを計算する。
各タイプの訓練されたモデルに対し、最善のモデルがDGT有効に対するBLEU点数によって選択された。実験における点数を表2に示し、これらの代表モデルの説明を表3に示した。
MTモデルからブートストラップされた(boot-strapped)、実験的なNLGモデルが流暢かつ一貫性のあるテキスト生成を実行するために示された。例えば、図9a~図9cに示すように、実験的なNLGモデル(3選手)は、一貫性のある文書レベルの生成およびメタデータを「コピー」する能力の他に、いくつかの優れた特性があった。実験用NLGモデルは、チームと選手に対する一般的な情報を学習したものと示された。このように、図11に示すように、メタデータにはない関連情報を生成することができた。
上述した説明は、本質的な説明に過ぎず、本開示、その適用、または使用を限定するように意図するものではない。本開示の広範囲の教示は、多様な形態によって実現可能である。したがって、本開示は特定の実施形態を含んでいるが、他の変更は図面、明細書、および添付の特許請求の範囲に基づいて明らかになるはずであるため、本開示の真正範囲がこのようなものに限定されてはならない。方法内の1つ以上の段階は、本開示の原理を変更しない範囲内であれば、異なる順序で(または、同時に)実行されてもよいことが理解されなければならない。また、実施形態のそれぞれには特定の特徴があると説明したが、本開示のいずれかの実施形態に関して説明したこのような特徴のうちの1つ以上は、他の実施形態のうちのいずれかの特徴内で、あるいは/追加で該当の特徴と組み合わせることで、このような組み合わせについての説明がなくても、実現可能である。言い換えれば、説明した実施形態は相互排他的なものではなく、1つ以上の実施形態の他の1つとの順列は本開示の範囲内にある。
Claims (24)
- プロセッサによって自然言語生成(NLG)モデルを訓練させる方法であって、
文書レベルの機械翻訳(MT)モデルを、第1言語のトークンシーケンスを入力として受信し、第2言語のトークンシーケンスを出力として生成するようにMTモデルを訓練させることによって提供する段階、
拡張された文書レベルのMTモデルを、文書に関連する対をなす言語独立構造化されたデータおよび前記第1言語のトークンシーケンスを入力として受信して前記第2言語のトークンシーケンスを出力として生成するように文書レベルのMTモデルを訓練させることによって提供する段階、および
前記NLGモデルを、前記言語独立構造化されたデータを入力として受信して前記第2言語のトークンシーケンスを出力として生成するように、前記拡張された文書レベルのMTモデルを訓練させることによって提供する段階
を含み、
前記言語独立構造化されたデータは、前記第1言語および前記第2言語により理解される、概念的あるいは意味的情報を示す構造化されたデータである、
NLGモデルを訓練させる方法。 - 前記文書レベルのMTモデルは、前記第1言語および前記第2言語の文章レベルの並列コーパスからランダムに選択された文章の連結されたグループである前記第1言語および前記第2言語のトークンシーケンスによって訓練される、
請求項1に記載のNLGモデルを訓練させる方法。 - 前記文書レベルのMTモデルは、前記第1言語および前記第2言語の文書レベルの並列コーパスから選択された文書レベルのトークンシーケンスである前記第1言語および前記第2言語のトークンシーケンスによって訓練される、
請求項2に記載のNLGモデルを訓練させる方法。 - 前記NLGモデルは、イベントを取り囲む事実と関連する前記概念的あるいは意味的情報を示す構造化されたデータであって、前記第1言語および前記第2言語により理解される言語独立構造化されたデータを入力として受信し、前記イベントを取り囲む事実を参照する前記第2言語のトークンシーケンスを有する前記イベントのマルチ文章要約を出力として生成する、
請求項1に記載のNLGモデルを訓練させる方法。 - 前記イベントは、スポーツイベントを含む、
請求項4に記載のNLGモデルを訓練させる方法。 - 前記言語独立構造化されたデータは、トークンシーケンス形式である、
請求項1に記載のNLGモデルを訓練させる方法。 - 前記言語独立構造化されたデータは、テキストシーケンス形式である、
請求項1に記載のNLGモデルを訓練させる方法。 - 1つ以上のテキストシーケンスとして、前記言語独立構造化されたデータを提供するように構造化されたデータを前処理する段階
をさらに含む、請求項1に記載のNLGモデルを訓練させる方法。 - 前記前処理前の前記構造化されたデータは、テーブルレコードデータ、グラフデータ、メタデータ、フォーマット化されたデータのうちの1つ以上を含む、
請求項8に記載のNLGモデルを訓練させる方法。 - 前記構造化されたデータを前処理する段階は、
1つ以上のNLG訓練セットから前記構造化されたデータを受信する段階、および
前記構造化されたデータから前記1つ以上のテキストシーケンスを生成する段階
を含む、請求項8に記載のNLGモデルを訓練させる方法。 - 前記前処理する段階は、
前記受信された構造化されたデータをフィルタリングする段階
をさらに含む、請求項10に記載のNLGモデルを訓練させる方法。 - 前記前処理する段階は、
前記受信された構造化されたデータを、前記受信された構造化されたデータから推論される追加の構造化されたデータによって補う段階
をさらに含む、請求項10に記載のNLGモデルを訓練させる方法。 - 前記前処理する段階は、
前記受信された構造化されたデータをテキストに変換するか、正規化する段階
をさらに含む、請求項10に記載のNLGモデルを訓練させる方法。 - 前記前処理する段階は、
前記受信された構造化されたデータのうちの言語従属構造化されたデータを、前記第1言語および前記第2言語により理解され、前記概念的あるいは意味的情報を示す構造化されたデータである言語独立構造化されたデータに変換する段階
をさらに含む、請求項10に記載のNLGモデルを訓練させる方法。 - 前記言語独立構造化されたデータまたは前記第1言語のトークンシーケンスのうちの1つ以上をセグメント化する段階
をさらに含む、請求項1に記載のNLGモデルを訓練させる方法。 - 前記セグメント化する段階は、バイト対符号化(BPE)を使用する、
請求項15に記載のNLGモデルを訓練させる方法。 - 前記文書レベルのMTモデルは、文章レベルのMTモデルとして最初に訓練される、
請求項1に記載のNLGモデルを訓練させる方法。 - 前記文書レベルの機械翻訳モデルは、前記第2言語のトークンシーケンスを逆翻訳することによって提供される前記第1言語のトークンシーケンスによって訓練される、
請求項1に記載のNLGモデルを訓練させる方法。 - 前記拡張された文書レベルのMTモデルを訓練させることは、前記第1言語の対をなすトークンシーケンスをペアリングせず、前記言語独立構造化されたデータをソースとして使用して前記第2言語のトークンシーケンスをターゲットとして使用する、
請求項1に記載のNLGモデルを訓練させる方法。 - 出力テキストを生成する方法であって、
第1言語および第2言語により理解される、文書に関する概念的あるいは意味的情報を示す構造化されたデータである新しい言語独立構造化されたデータを請求項1に記載の方法によって訓練された前記NLGモデルに入力する段階、および
前記入力にしたがい、前記訓練されたNLGモデルが前記第2言語の出力テキストを生成する段階
を含む、出力テキストを生成する方法。 - 新しい構造化されたデータを受信する段階、および
前記新しい言語独立構造化されたデータを提供するように、前記受信された新しい構造化されたデータを前処理する段階
をさらに含む、請求項20に記載の出力テキストを生成する方法。 - 前記生成された出力テキストを記録する段階または表示する段階うちの1つ以上をさらに含む、
請求項20に記載の出力テキストを生成する方法。 - 第1言語のトークンシーケンスを入力として受信して第2言語のトークンシーケンスを出力として生成するように自然言語生成(NLG)モデルを訓練させる装置であって、
1つ以上のプロセッサ、および
前記プロセッサによって実行された機能を実行するコードを含むメモリ
を含み、
前記機能は、
文書レベルの機械翻訳(MT)モデルを、第1言語のトークンシーケンスを入力として受信して第2言語のトークンシーケンスを出力として生成するようにMTモデルを訓練させることによって提供すること、
拡張された文書レベルのMTモデルを、文書に関連する対をなす言語独立構造化されたデータおよび前記第1言語のトークンシーケンスを入力として受信して前記第2言語のトークンシーケンスを出力として生成するように文書レベルのMTモデルを訓練させることによって提供すること、および
前記NLGモデルを、前記言語独立構造化されたデータを入力として受信して前記第2言語のトークンシーケンスを出力として生成するように、前記拡張された文書レベルMTモデルを訓練させることによって提供すること
を含み、
前記言語独立構造化されたデータは、前記第1言語および前記第2言語により理解される、概念的あるいは意味的情報を示す構造化されたデータである、
NLGモデルを訓練させる装置。 - 出力テキストを生成する方法であって、
言語独立構造化されたデータを自然言語生成(NLG)モデルに入力する段階、および
前記入力にしたがい、訓練された前記NLGモデルが第2言語の出力テキストを生成する段階
を含み、
前記NLGモデルは、前記言語独立構造化されたデータを入力として受信して前記第2言語のトークンシーケンスを出力として生成するように拡張された文書レベルのMTモデルによって訓練され、
前記拡張された文書レベルのMTモデルは、文書に関連する対をなす前記言語独立構造化されたデータおよび第1言語のトークンシーケンスを入力として受信して前記第2言語のトークンシーケンスを出力として生成するように文書レベルMTモデルによって訓練され、
前記文書レベルのMTモデルは、前記第1言語のトークンシーケンスを入力として受信して前記第2言語のトークンシーケンスを出力として生成するようにMTモデルによって訓練され、
前記言語独立構造化されたデータは、前記第1言語および前記第2言語により理解される、概念的あるいは意味的情報を示す構造化されたデータである、
出力テキストを生成する方法。
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US202063065138P | 2020-08-13 | 2020-08-13 | |
US63/065,138 | 2020-08-13 | ||
US17/023,660 | 2020-09-17 | ||
US17/023,660 US11625544B2 (en) | 2020-08-13 | 2020-09-17 | Method and system for training document-level natural language processing models |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2022032910A JP2022032910A (ja) | 2022-02-25 |
JP7337770B2 true JP7337770B2 (ja) | 2023-09-04 |
Family
ID=80224338
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020183754A Active JP7337770B2 (ja) | 2020-08-13 | 2020-11-02 | 文書レベルの自然言語処理モデルを訓練させる方法およびシステム |
Country Status (3)
Country | Link |
---|---|
US (1) | US11625544B2 (ja) |
JP (1) | JP7337770B2 (ja) |
KR (1) | KR20220021360A (ja) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11734517B1 (en) * | 2021-03-09 | 2023-08-22 | Yseop Sa | Systems and methods for measuring automatability of report generation using a natural language generation system |
KR102615164B1 (ko) * | 2023-02-15 | 2023-12-15 | 주식회사 티빙 | 콘텐츠 스트리밍 시스템에서 유사 콘텐츠를 제공하기 위한 방법 및 장치 |
KR102615165B1 (ko) * | 2023-02-24 | 2023-12-15 | 주식회사 티빙 | 콘텐츠 스트리밍 시스템에서 유사 콘텐츠를 제공하기 위한 방법 및 장치 |
KR102640452B1 (ko) * | 2023-08-02 | 2024-02-27 | (주)유알피 | 할루시네이션이 제거된 인공지능을 활용한 생성형 문서 요약 방법 |
KR102640449B1 (ko) * | 2023-08-02 | 2024-02-27 | (주)유알피 | 딥러닝 기반 생성형 문서 요약의 할루시네이션 제거장치 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170372221A1 (en) | 2016-06-23 | 2017-12-28 | International Business Machines Corporation | Cognitive machine learning classifier generation |
JP2020520505A (ja) | 2017-05-19 | 2020-07-09 | セールスフォース ドット コム インコーポレイティッド | 文脈固有の単語ベクトルを用いた自然言語処理 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107430504A (zh) * | 2015-04-08 | 2017-12-01 | 利斯托株式会社 | 数据变换系统及方法 |
US11222184B1 (en) * | 2015-11-02 | 2022-01-11 | Narrative Science Inc. | Applied artificial intelligence technology for using narrative analytics to automatically generate narratives from bar charts |
US10997374B2 (en) * | 2019-03-22 | 2021-05-04 | Fortia Financial Solutions | Generation of natural language text from structured data using a fusion model |
-
2020
- 2020-09-17 US US17/023,660 patent/US11625544B2/en active Active
- 2020-10-26 KR KR1020200139569A patent/KR20220021360A/ko unknown
- 2020-11-02 JP JP2020183754A patent/JP7337770B2/ja active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170372221A1 (en) | 2016-06-23 | 2017-12-28 | International Business Machines Corporation | Cognitive machine learning classifier generation |
JP2020520505A (ja) | 2017-05-19 | 2020-07-09 | セールスフォース ドット コム インコーポレイティッド | 文脈固有の単語ベクトルを用いた自然言語処理 |
Non-Patent Citations (1)
Title |
---|
田川裕輝 他1名、スポーツ要約生成におけるテンプレート型手法とニューラル型手法の提案と比較、自然言語処理、日本、一般社団法人言語処理学会、2018年9月15日、Vol.25 No.4,357-391頁 |
Also Published As
Publication number | Publication date |
---|---|
JP2022032910A (ja) | 2022-02-25 |
KR20220021360A (ko) | 2022-02-22 |
US20220050973A1 (en) | 2022-02-17 |
US11625544B2 (en) | 2023-04-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7337770B2 (ja) | 文書レベルの自然言語処理モデルを訓練させる方法およびシステム | |
Malmi et al. | Encode, tag, realize: High-precision text editing | |
Clark et al. | Canine: Pre-training an efficient tokenization-free encoder for language representation | |
Zhou et al. | Flipda: Effective and robust data augmentation for few-shot learning | |
JP2022111261A (ja) | 質問生成装置、質問生成方法及びプログラム | |
Jia et al. | Gender prediction based on Chinese name | |
Ezeani et al. | Leveraging pre-trained embeddings for Welsh taggers | |
CN103914447B (zh) | 信息处理设备和信息处理方法 | |
Mrinalini et al. | Pause-based phrase extraction and effective OOV handling for low-resource machine translation systems | |
Tran et al. | Webnlg 2020 challenge: Semantic template mining for generating references from rdf | |
JP2018072979A (ja) | 対訳文抽出装置、対訳文抽出方法およびプログラム | |
Pathak et al. | Part-of-speech tagger for assamese using ensembling approach | |
Hailu et al. | Semantic role labeling for Amharic text using multiple embeddings and deep neural network | |
Rademaker et al. | Completing the Princeton annotated gloss corpus project | |
WO2022079845A1 (ja) | 単語対応装置、学習装置、単語対応方法、学習方法、及びプログラム | |
Tufiş et al. | Tiered tagging revisited | |
CN111090720B (zh) | 一种热词的添加方法和装置 | |
Das et al. | Language identification of Bengali-English code-mixed data using character & phonetic based LSTM models | |
Laukaitis et al. | Sentence level alignment of digitized books parallel corpora | |
Rana et al. | Example based machine translation using fuzzy logic from English to Hindi | |
Stankevičius et al. | Towards Lithuanian grammatical error correction | |
JP2018077604A (ja) | 機能記述からの実現手段・方法の侵害候補を自動特定する人工知能装置 | |
Cross et al. | Glossy bytes: Neural glossing using subword encoding | |
Hwang et al. | Linear‐time Korean morphological analysis using an action‐based local monotonic attention mechanism | |
JP5085975B2 (ja) | 日本語固有表現抽出装置、日本語固有表現抽出方法、およびその方法をコンピュータに実行させるプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A80 | Written request to apply exceptions to lack of novelty of invention |
Free format text: JAPANESE INTERMEDIATE CODE: A80 Effective date: 20201104 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20201228 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220308 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220526 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20220809 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20221206 |
|
C60 | Trial request (containing other claim documents, opposition documents) |
Free format text: JAPANESE INTERMEDIATE CODE: C60 Effective date: 20221206 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20221215 |
|
C21 | Notice of transfer of a case for reconsideration by examiners before appeal proceedings |
Free format text: JAPANESE INTERMEDIATE CODE: C21 Effective date: 20221220 |
|
A912 | Re-examination (zenchi) completed and case transferred to appeal board |
Free format text: JAPANESE INTERMEDIATE CODE: A912 Effective date: 20230113 |
|
C211 | Notice of termination of reconsideration by examiners before appeal proceedings |
Free format text: JAPANESE INTERMEDIATE CODE: C211 Effective date: 20230117 |
|
C22 | Notice of designation (change) of administrative judge |
Free format text: JAPANESE INTERMEDIATE CODE: C22 Effective date: 20230411 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230823 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7337770 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |