JP2020008836A - 語彙テーブルの選択方法、装置およびコンピュータ読み取り可能な記憶媒体 - Google Patents
語彙テーブルの選択方法、装置およびコンピュータ読み取り可能な記憶媒体 Download PDFInfo
- Publication number
- JP2020008836A JP2020008836A JP2019090337A JP2019090337A JP2020008836A JP 2020008836 A JP2020008836 A JP 2020008836A JP 2019090337 A JP2019090337 A JP 2019090337A JP 2019090337 A JP2019090337 A JP 2019090337A JP 2020008836 A JP2020008836 A JP 2020008836A
- Authority
- JP
- Japan
- Prior art keywords
- vocabulary
- weight
- target
- training
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Machine Translation (AREA)
Abstract
Description
語彙重み付け層をターゲットニューラルネットワークモデルに導入して予備トレーニングモデルを構築し、前記語彙重み付け層は語彙重みによって第1語彙テーブル中のターゲット語彙を重み付けるようにし、かつ重み付け処理により得たターゲット語彙を前記ターゲットニューラルネットワークモデルに入力するステップと、
前記第1語彙テーブルに基づき、前記予備トレーニングモデルをトレーニングして、前記予備トレーニングモデルのモデルパラメータおよび語彙重み付け層の語彙重みを更新し、かつトレーニング終了後に、前記第1語彙テーブルにおけるターゲット語彙の語彙重みを取得するステップと、
前記語彙重みによって前記第1語彙テーブルを選別して、第2語彙テーブルを得るステップと、を含む。
前記第2語彙テーブルによって、前記ターゲットニューラルネットモデルをトレーニングする。
前記ターゲット語彙に対応するターゲット単語ベクトルと未知語彙に対応する未知単語ベクトルとに対して加重合計を行い、そのうち、前記ターゲット単語ベクトルの第1重みは前記ターゲット語彙の語彙重みの正相関関数で、前記未知単語ベクトルの第2重みは前記ターゲット語彙の語彙重みの負相関関数であり、かつ前記第1重みと第2重みの和が所定値であり、前記未知語彙が前記第1語彙テーブルに存在しない語彙で、かつ前記第1語彙テーブルに存在しない語彙がすべて同一の未知単語ベクトルに対応すること、を含む。
オリジナルコーパスデータをデータクリーニングすることで、データクリーニング後のオリジナルコーパスデータを文に分割し、かつ文を分割して複数の語彙を得て、語彙のオリジナルコーパスにおける出現頻度の高い順に従って、第1数の語彙を選択して、前記第1語彙テーブルを得る。
語彙重み付け層をターゲットニューラルネットワークモデルに導入して予備トレーニングモデルを構築し、前記語彙重み付け層は語彙ウェイトによって第1語彙テーブル中のターゲット語彙を重み付けるようにし、かつ重み付け処理により得たターゲット語彙を前記ターゲットニューラルネットワークモデルに入力する予備トレーニングモデルのモデリングユニットと、
前記第1語彙テーブルに基づき、前記予備トレーニングモデルをトレーニングして、前記予備トレーニングモデルのモデルパラメータおよび語彙重み付け層の語彙重みを更新し、かつトレーニング終了後に、前記第1語彙テーブルにおけるターゲット語彙の語彙重みを取得する第1トレーニングユニットと、
前記語彙ウェイトによって前記第1語彙テーブルを選別して、第2語彙テーブルを得る語彙選択ユニットと、を含む。
前記第2語彙テーブルによって、前記ターゲットニューラルネットモデルをトレーニングする第2トレーニングユニットを含む。
語彙テーブル生成ユニットにより、オリジナルコーパスデータをデータクリーニングすることで、データクリーニング後のオリジナルコーパスデータを文に分割し、かつ文を分割して複数の語彙を得て、語彙のオリジナルコーパスにおける出現頻度の高い順に従って、第1数の語彙を選択して、前記第1語彙テーブルを得る。
Claims (11)
- 語彙重み付け層をターゲットニューラルネットワークモデルに導入して予備トレーニングモデルを構築し、前記語彙重み付け層は語彙重みによって第1語彙テーブル中のターゲット語彙を重み付けるようにし、かつ重み付け処理により得たターゲット語彙を前記ターゲットニューラルネットワークモデルに入力するステップと、
前記第1語彙テーブルに基づき、前記予備トレーニングモデルをトレーニングし、前記予備トレーニングモデルのモデルパラメータおよび語彙重み付け層の語彙重みを更新し、かつトレーニング終了後に、前記第1語彙テーブルにおけるターゲット語彙の語彙重みを取得するステップと、
前記語彙重みによって前記第1語彙テーブルを選別し、第2語彙テーブルを得るステップと、
を含むことを特徴とする語彙テーブルの選択方法。 - 前記第2語彙テーブルを得た後、前記選択方法は、さらに、前記第2語彙テーブルによって、前記ターゲットニューラルネットモデルをトレーニングするステップを含む、
ことを特徴とする請求項1に記載の選択方法。 - 前記語彙重みによって第1語彙テーブル中のターゲット語彙を重み付けるステップは、
前記ターゲット語彙に対応するターゲット単語ベクトルと未知語彙に対応する未知単語ベクトルとに対して加重合計を行い、そのうち、前記ターゲット単語ベクトルの第1重みは前記ターゲット語彙の語彙重みの正相関関数であり、前記未知単語ベクトルの第2重みは前記ターゲット語彙の語彙重みの負相関関数であり、かつ前記第1重みと第2重みの和が所定値であり、前記未知語彙が前記第1語彙テーブルに存在しない語彙であり、かつ前記第1語彙テーブルに存在しない語彙がすべて同一の未知単語ベクトルに対応すること
を含むことを特徴とする請求項1または2に記載の選択方法。 - 前記第1重みは前記ターゲット語彙の語彙重みの第1関数であり、前記第1関数は前記ターゲット語彙の語彙重みを0から1までにマッピングし、
前記第2重みは前記第1重みの第2関数であり、且つ前記第1重みと負の相関がある、
ことを特徴とする請求項3に記載の選択方法。 - 前記語彙重みによって前記第1語彙テーブルを選別する前記ステップは、
語彙重みの高い順によって、前記第1語彙テーブルから第2数の語彙を選択して前記第2語彙テーブルを得ること、或いは、前記第1語彙テーブルから語彙重みが予めに設定した数値範囲内にある語彙を選択して前記第2語彙テーブルを得ることを含み、
前記第2語彙テーブル中の語彙数は第1語彙テーブル中の語彙数より少ない、
ことを特徴とする請求項1または2に記載の選択方法。 - 前記ターゲットニューラルネットワークモデルと前記予備トレーニングモデルとともに、同一のターゲットタスクに対して構築されたモデルである、
ことを特徴とする請求項1または2に記載の選択方法。 - 語彙重み付け層をターゲットニューラルネットワークモデルに導入して予備トレーニングモデルを構築し、前記語彙重み付け層は語彙ウェイトによって第1語彙テーブル中のターゲット語彙を重み付けるようにし、かつ重み付け処理により得たターゲット語彙を前記ターゲットニューラルネットワークモデルに入力する予備トレーニングモデルのモデリングユニットと、
前記第1語彙テーブルに基づき、前記予備トレーニングモデルをトレーニングし、前記予備トレーニングモデルのモデルパラメータおよび語彙重み付け層の語彙重みを更新し、かつトレーニング終了後に、前記第1語彙テーブルにおけるターゲット語彙の語彙重みを取得する第1トレーニングユニットと、
前記語彙ウェイトによって前記第1語彙テーブルを選別し、第2語彙テーブルを得る語彙選択ユニットと、
を含むことを特徴とする語彙テーブルの選択装置。 - 前記第2語彙テーブルによって、前記ターゲットニューラルネットモデルをトレーニングする第2トレーニングユニット
をさらに含むことを特徴とする請求項7に記載の選択装置。 - 前記ターゲット語彙に対応するターゲット単語ベクトルと未知語彙に対応する未知単語ベクトルとに対して加重合計を行い、そのうち、前記ターゲット単語ベクトルの第1重みは前記ターゲット語彙の語彙重みの正相関関数であり、前記未知単語ベクトルの第2重みは前記ターゲット語彙の語彙重みの負相関関数であり、かつ前記第1重みと第2重みの和が所定値であり、前記未知語彙が前記第1語彙テーブルに存在しない語彙であり、かつ前記第1語彙テーブルに存在しない語彙はすべて同一の未知単語ベクトルに対応する、
ことを特徴とする請求項7または8に記載の選択装置。 - コンピュータに、請求項1ないし6のいずれか1項に記載の語彙テーブルの選択方法を実行させるためのプログラム。
- 請求項10に記載のプログラムを記憶したコンピュータ読み取り可能な記憶媒体。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810751994.9 | 2018-07-10 | ||
CN201810751994.9A CN110705279A (zh) | 2018-07-10 | 2018-07-10 | 一种词汇表的选择方法、装置及计算机可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2020008836A true JP2020008836A (ja) | 2020-01-16 |
JP6743942B2 JP6743942B2 (ja) | 2020-08-19 |
Family
ID=69151672
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019090337A Active JP6743942B2 (ja) | 2018-07-10 | 2019-05-13 | 語彙テーブルの選択方法、装置およびコンピュータ読み取り可能な記憶媒体 |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP6743942B2 (ja) |
CN (1) | CN110705279A (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113191136A (zh) * | 2021-04-30 | 2021-07-30 | 北京百度网讯科技有限公司 | 数据处理方法及装置 |
JP2022522926A (ja) * | 2019-02-05 | 2022-04-21 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 音響単語埋め込みを使用した直接音響単語音声認識における未知語の認識 |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113743116A (zh) * | 2020-05-28 | 2021-12-03 | 株式会社理光 | 命名实体识别的训练方法、装置及计算机可读存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2006059451A1 (ja) * | 2004-11-30 | 2006-06-08 | Matsushita Electric Industrial Co., Ltd. | 音声認識装置 |
JP2014098760A (ja) * | 2012-11-13 | 2014-05-29 | Nippon Telegr & Teleph Corp <Ntt> | 辞書・言語モデル圧縮方法とその装置とプログラム |
JP2015040908A (ja) * | 2013-08-20 | 2015-03-02 | 株式会社リコー | 情報処理装置、情報更新プログラム及び情報更新方法 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8977537B2 (en) * | 2011-06-24 | 2015-03-10 | Microsoft Technology Licensing, Llc | Hierarchical models for language modeling |
JP2015060581A (ja) * | 2013-09-20 | 2015-03-30 | 株式会社東芝 | キーワード抽出装置、方法およびプログラム |
CN106557508A (zh) * | 2015-09-28 | 2017-04-05 | 北京神州泰岳软件股份有限公司 | 一种文本关键词提取方法和装置 |
CN105260359B (zh) * | 2015-10-16 | 2018-10-02 | 晶赞广告(上海)有限公司 | 语义关键词提取方法及装置 |
JP6526608B2 (ja) * | 2016-09-06 | 2019-06-05 | 株式会社東芝 | 辞書更新装置およびプログラム |
-
2018
- 2018-07-10 CN CN201810751994.9A patent/CN110705279A/zh active Pending
-
2019
- 2019-05-13 JP JP2019090337A patent/JP6743942B2/ja active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2006059451A1 (ja) * | 2004-11-30 | 2006-06-08 | Matsushita Electric Industrial Co., Ltd. | 音声認識装置 |
JP2014098760A (ja) * | 2012-11-13 | 2014-05-29 | Nippon Telegr & Teleph Corp <Ntt> | 辞書・言語モデル圧縮方法とその装置とプログラム |
JP2015040908A (ja) * | 2013-08-20 | 2015-03-02 | 株式会社リコー | 情報処理装置、情報更新プログラム及び情報更新方法 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2022522926A (ja) * | 2019-02-05 | 2022-04-21 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 音響単語埋め込みを使用した直接音響単語音声認識における未知語の認識 |
JP7361120B2 (ja) | 2019-02-05 | 2023-10-13 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 音響単語埋め込みを使用した直接音響単語音声認識における未知語の認識 |
CN113191136A (zh) * | 2021-04-30 | 2021-07-30 | 北京百度网讯科技有限公司 | 数据处理方法及装置 |
CN113191136B (zh) * | 2021-04-30 | 2024-03-01 | 北京百度网讯科技有限公司 | 数据处理方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
JP6743942B2 (ja) | 2020-08-19 |
CN110705279A (zh) | 2020-01-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7166322B2 (ja) | モデルを訓練するための方法、装置、電子機器、記憶媒体およびコンピュータプログラム | |
JP6955580B2 (ja) | 文書要約自動抽出方法、装置、コンピュータ機器及び記憶媒体 | |
CN108363790B (zh) | 用于对评论进行评估的方法、装置、设备和存储介质 | |
CN110366734B (zh) | 优化神经网络架构 | |
US11113479B2 (en) | Utilizing a gated self-attention memory network model for predicting a candidate answer match to a query | |
CN107836000B (zh) | 用于语言建模和预测的改进的人工神经网络方法、电子设备 | |
CN109117480B (zh) | 词预测方法、装置、计算机设备及存储介质 | |
CN111311321B (zh) | 用户消费行为预测模型训练方法、装置、设备及存储介质 | |
JP7309798B2 (ja) | 対話意図の認識方法及び装置、電子機器並びに記憶媒体 | |
JP7262539B2 (ja) | 会話推薦方法、装置及び機器 | |
JP6743942B2 (ja) | 語彙テーブルの選択方法、装置およびコンピュータ読み取り可能な記憶媒体 | |
KR20210148918A (ko) | 언어 모델에 기반한 단어 벡터 획득 방법, 장치, 기기 및 기록매체 | |
JP7044839B2 (ja) | エンドツーエンドモデルのトレーニング方法および装置 | |
WO2020151175A1 (zh) | 文本生成方法、装置、计算机设备及存储介质 | |
CN111326251B (zh) | 一种问诊问题输出方法、装置以及电子设备 | |
JP2021125217A (ja) | マルチホップ機械読み取りのための潜在質問再定式化および情報蓄積 | |
CN110874536B (zh) | 语料质量评估模型生成方法和双语句对互译质量评估方法 | |
CN112699215B (zh) | 基于胶囊网络与交互注意力机制的评级预测方法及系统 | |
CN111611808B (zh) | 用于生成自然语言模型的方法和装置 | |
CN112000330B (zh) | 建模参数的配置方法、装置、设备和计算机存储介质 | |
US20220383119A1 (en) | Granular neural network architecture search over low-level primitives | |
CN115688937A (zh) | 一种模型训练方法及其装置 | |
CN113468857B (zh) | 风格转换模型的训练方法、装置、电子设备以及存储介质 | |
JP7121791B2 (ja) | 言語生成方法、装置及び電子機器 | |
CN113535912A (zh) | 基于图卷积网络和注意力机制的文本关联方法及相关设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20190513 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20200603 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20200630 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20200713 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 6743942 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |