JP7248130B2 - 情報処理方法、情報処理プログラムおよび情報処理装置 - Google Patents
情報処理方法、情報処理プログラムおよび情報処理装置 Download PDFInfo
- Publication number
- JP7248130B2 JP7248130B2 JP2021541920A JP2021541920A JP7248130B2 JP 7248130 B2 JP7248130 B2 JP 7248130B2 JP 2021541920 A JP2021541920 A JP 2021541920A JP 2021541920 A JP2021541920 A JP 2021541920A JP 7248130 B2 JP7248130 B2 JP 7248130B2
- Authority
- JP
- Japan
- Prior art keywords
- word
- probability distribution
- dictionary
- words
- information processing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/374—Thesaurus
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/55—Rule-based translation
- G06F40/56—Natural language generation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N7/00—Computing arrangements based on specific mathematical models
- G06N7/01—Probabilistic graphical models, e.g. probabilistic networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Data Mining & Analysis (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Evolutionary Computation (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Databases & Information Systems (AREA)
- Machine Translation (AREA)
Description
100A 学習部
100B 生成部
101 学習データ記憶部
102 辞書生成部
103 辞書情報記憶部
104 モデル記憶部
105a,111a エンコーダ実行部
105b,111b デコーダ実行部
106、112 算出部
107 損失計算部
108 更新部
110 取得部
113 生成部
Claims (6)
- 第一の文書のうち、第二の文書に含まれていない単語を抽出し、
抽出した前記単語を第一の辞書に登録し、
第二の文書を構成する単語を再帰型のエンコーダに順番に入力することで中間表現ベクトルを算出し、
前記第一の辞書に登録された各単語の確率分布を算出する再帰型のデコーダに、前記中間表現ベクトルを入力した結果を基にして、第一の確率分布の算出を反復し、
第二の文書を構成する各単語を前記再帰型のエンコーダに入力することで算出される隠れ状態ベクトルと、前記再帰型のデコーダから出力される隠れ状態ベクトルとを基にして、第二の辞書に登録される、前記第二の文書を構成する各単語の確率分布である第二の確率分布の算出を反復し、
前記第一の確率分布と、前記第二の確率分布とを基にして、単語の生成を反復し、
前記生成が反復される単語ごとに、前記単語と、前記第一の文書のうち前記単語が生成される順番に対応する単語とを基にして、前記再帰型のエンコーダおよび前記再帰型のデコーダのパラメータを訓練する、
処理をコンピュータが実行することを特徴とする情報処理方法。 - 前記単語を抽出する処理は、入力文と、前記入力文を要約した要約文との組を取得し、前記要約文のうち、前記入力文に含まれていない単語を抽出することを特徴とする請求項1に記載の情報処理方法。
- 前記単語を辞書に登録する処理は、前記要約文のうち、前記入力文に含まれていない単語の頻度を集計し、頻度が所定の頻度以上となる単語を、前記第一の辞書に登録することを特徴とする請求項2に記載の情報処理方法。
- 前記単語を生成する処理は、第一の重みを乗算した前記第一の確率分布と、前記第一の重みよりも小さい第二の重みを乗算した前記第二の確率分布とを加算した確率分布を基にして、前記第一の文書を構成する単語を生成することを特徴とする請求項1、2または3に記載の情報処理方法。
- 第一の文書のうち、第二の文書に含まれていない単語を抽出し、
抽出した前記単語を第一の辞書に登録し、
第二の文書を構成する単語を再帰型のエンコーダに順番に入力することで中間表現ベクトルを算出し、
前記第一の辞書に登録された各単語の確率分布を算出する再帰型のデコーダに、前記中間表現ベクトルを入力した結果を基にして、第一の確率分布の算出を反復し、
第二の文書を構成する各単語を前記再帰型のエンコーダに入力することで算出される隠れ状態ベクトルと、前記再帰型のデコーダから出力される隠れ状態ベクトルとを基にして、第二の辞書に登録される、前記第二の文書を構成する各単語の確率分布である第二の確率分布の算出を反復し、
前記第一の確率分布と、前記第二の確率分布とを基にして、単語の生成を反復し、
前記生成が反復される単語ごとに、前記単語と、前記第一の文書のうち前記単語が生成される順番に対応する単語とを基にして、前記再帰型のエンコーダおよび前記再帰型のデコーダのパラメータを訓練する、
処理をコンピュータに実行させることを特徴とする情報処理プログラム。 - 第一の文書のうち、第二の文書に含まれていない単語を抽出し、
抽出した前記単語を第一の辞書に登録し、
第二の文書を構成する単語を再帰型のエンコーダに順番に入力することで中間表現ベクトルを算出し、
前記第一の辞書に登録された各単語の確率分布を算出する再帰型のデコーダに、前記中間表現ベクトルを入力した結果を基にして、第一の確率分布の算出を反復し、
第二の文書を構成する各単語を前記再帰型のエンコーダに入力することで算出される隠れ状態ベクトルと、前記再帰型のデコーダから出力される隠れ状態ベクトルとを基にして、第二の辞書に登録される、前記第二の文書を構成する各単語の確率分布である第二の確率分布の算出を反復し、
前記第一の確率分布と、前記第二の確率分布とを基にして、単語の生成を反復し、
前記生成が反復される単語ごとに、前記単語と、前記第一の文書のうち前記単語が生成される順番に対応する単語とを基にして、前記再帰型のエンコーダおよび前記再帰型のデコーダのパラメータを訓練する、
処理を実行する制御部を有することを特徴とする情報処理装置。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2019/034100 WO2021038827A1 (ja) | 2019-08-30 | 2019-08-30 | 情報処理方法、情報処理プログラムおよび情報処理装置 |
Publications (3)
Publication Number | Publication Date |
---|---|
JPWO2021038827A1 JPWO2021038827A1 (ja) | 2021-03-04 |
JPWO2021038827A5 JPWO2021038827A5 (ja) | 2022-03-02 |
JP7248130B2 true JP7248130B2 (ja) | 2023-03-29 |
Family
ID=74684740
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021541920A Active JP7248130B2 (ja) | 2019-08-30 | 2019-08-30 | 情報処理方法、情報処理プログラムおよび情報処理装置 |
Country Status (3)
Country | Link |
---|---|
US (1) | US20220171926A1 (ja) |
JP (1) | JP7248130B2 (ja) |
WO (1) | WO2021038827A1 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2022098219A (ja) * | 2020-12-21 | 2022-07-01 | 富士通株式会社 | 学習プログラム、学習方法、および学習装置 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180329883A1 (en) | 2017-05-15 | 2018-11-15 | Thomson Reuters Global Resources Unlimited Company | Neural paraphrase generator |
JP2019016239A (ja) | 2017-07-07 | 2019-01-31 | 富士通株式会社 | 学習プログラム、学習方法及び学習装置 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3987934B2 (ja) * | 2003-11-12 | 2007-10-10 | 国立大学法人大阪大学 | 社会的な関係を用いてユーザの評価コメントを要約する文書処理装置、その方法及びプログラム |
US20140025427A1 (en) * | 2012-07-17 | 2014-01-23 | Linkedln Corporation | Inferring and suggesting attribute values for a social networking service |
CN108280112B (zh) * | 2017-06-22 | 2021-05-28 | 腾讯科技(深圳)有限公司 | 摘要生成方法、装置及计算机设备 |
US11170158B2 (en) * | 2018-03-08 | 2021-11-09 | Adobe Inc. | Abstractive summarization of long documents using deep learning |
-
2019
- 2019-08-30 WO PCT/JP2019/034100 patent/WO2021038827A1/ja active Application Filing
- 2019-08-30 JP JP2021541920A patent/JP7248130B2/ja active Active
-
2022
- 2022-02-14 US US17/671,461 patent/US20220171926A1/en active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180329883A1 (en) | 2017-05-15 | 2018-11-15 | Thomson Reuters Global Resources Unlimited Company | Neural paraphrase generator |
JP2019016239A (ja) | 2017-07-07 | 2019-01-31 | 富士通株式会社 | 学習プログラム、学習方法及び学習装置 |
Also Published As
Publication number | Publication date |
---|---|
JPWO2021038827A1 (ja) | 2021-03-04 |
WO2021038827A1 (ja) | 2021-03-04 |
US20220171926A1 (en) | 2022-06-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10332507B2 (en) | Method and device for waking up via speech based on artificial intelligence | |
JP6601470B2 (ja) | 自然言語の生成方法、自然言語の生成装置及び電子機器 | |
CN109635273A (zh) | 文本关键词提取方法、装置、设备及存储介质 | |
US20220300708A1 (en) | Method and device for presenting prompt information and storage medium | |
WO2020199595A1 (zh) | 基于词袋模型的长文本分类方法、装置、计算机设备及存储介质 | |
CN116072098B (zh) | 音频信号生成方法、模型训练方法、装置、设备和介质 | |
CN112687266B (zh) | 语音识别方法、装置、计算机设备和存储介质 | |
CN111368037A (zh) | 基于Bert模型的文本相似度计算方法和装置 | |
CN111354347B (zh) | 一种基于自适应热词权重的语音识别方法及系统 | |
CN111243571A (zh) | 文本的处理方法、装置、设备及计算机可读存储介质 | |
CN114610851A (zh) | 意图识别模型的训练方法、意图识别方法、设备及介质 | |
JP7248130B2 (ja) | 情報処理方法、情報処理プログラムおよび情報処理装置 | |
CN112668325B (zh) | 一种机器翻译增强方法、系统、终端及存储介质 | |
WO2022142011A1 (zh) | 一种地址识别方法、装置、计算机设备及存储介质 | |
WO2021139076A1 (zh) | 智能化文本对话生成方法、装置及计算机可读存储介质 | |
CN112580669A (zh) | 一种对语音信息的训练方法及装置 | |
CN111581347A (zh) | 语句相似度匹配方法及装置 | |
JP6082657B2 (ja) | ポーズ付与モデル選択装置とポーズ付与装置とそれらの方法とプログラム | |
CN115169342A (zh) | 文本相似度计算方法、装置、电子设备及存储介质 | |
JP7135730B2 (ja) | 要約生成方法及び要約生成プログラム | |
JP7099254B2 (ja) | 学習方法、学習プログラム及び学習装置 | |
CN115700788A (zh) | 用于图像识别的方法、设备和计算机程序产品 | |
CN110705275A (zh) | 主题词提取方法、装置、存储介质及电子设备 | |
CN117112734B (zh) | 基于语义的知识产权文本表示与分类方法及终端设备 | |
US20240045895A1 (en) | Information processing device, information processing method, and program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20211203 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20211203 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20221004 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20221125 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230214 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230227 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7248130 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |