JP7267342B2 - 語義表現モデルの訓練方法、装置、デバイス及びコンピュータ記憶媒体 - Google Patents
語義表現モデルの訓練方法、装置、デバイス及びコンピュータ記憶媒体 Download PDFInfo
- Publication number
- JP7267342B2 JP7267342B2 JP2021074989A JP2021074989A JP7267342B2 JP 7267342 B2 JP7267342 B2 JP 7267342B2 JP 2021074989 A JP2021074989 A JP 2021074989A JP 2021074989 A JP2021074989 A JP 2021074989A JP 7267342 B2 JP7267342 B2 JP 7267342B2
- Authority
- JP
- Japan
- Prior art keywords
- training
- language
- data model
- semantic data
- layer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/04—Inference or reasoning models
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- Data Mining & Analysis (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Probability & Statistics with Applications (AREA)
- Machine Translation (AREA)
Description
Claims (13)
- コンピュータにより実行される、セマンティックデータモデル(Semantic data Model)の訓練方法であって、前記セマンティックデータモデルは、Embedding Layerを最下位層として、Task Layerを最上位層として、Transformer Blockを他の層として含むニューラルネットワークであり、
前記セマンティックデータモデルの訓練方法は、
第1の言語により訓練されたセマンティックデータモデルを第1のセマンティックデータモデルとして取得し、
前記第1のセマンティックデータモデルの最下位層と最上位層を訓練対象層として訓練対象層を初期化し、他の層のモデルパラメータを変更せず、訓練終了条件に達するまで第2の言語の訓練コーパスを用いて訓練対象層を訓練し、
未訓練の各層を下から順に訓練対象層に加え、且つ、訓練対象層以外の他の層のモデルパラメータを変更せず、訓練終了条件に達するまで第2の言語の訓練コーパスを用いて訓練対象層をそれぞれ訓練することをそれぞれ実行し、
すべての層の訓練が終了した後、第2の言語に対するセマンティックデータモデルを得、
第1の言語により訓練された前記セマンティックデータモデルを第2のセマンティックデータモデルとして取得し、
前記第2の言語の訓練コーパスを用いて訓練対象層を訓練する場合に、前記第2の言語の訓練コーパスに対応する第1の言語のパラレルコーパスを前記第2のセマンティックデータモデルに入力し、
前記第2のセマンティックデータモデルの出力結果と前記第1のセマンティックデータモデルの出力結果とをアラインメントすること、を含み、
前記第2のセマンティックデータモデルの出力結果と前記第1のセマンティックデータモデルの出力結果とをアラインメントすることは、
前記第2のセマンティックデータモデルの出力結果と前記第1のセマンティックデータモデルの出力結果とにより、第2の言語の訓練コーパスにおける文字に対する予測結果が得られ、第2の言語の訓練コーパスにおける文字に対する予測結果が対応する第2の言語の訓練コーパスにおける期待文字に一致するように、訓練対象層のモデルパラメータを更新することを含む、
方法。 - 前記セマンティックデータモデルはTransformerモデルを含む、請求項1に記載の方法。
- 前記第2の言語の訓練コーパスは、第2の言語を用いたマスク(mask)付きテキストおよび前記maskに対応する文字を含み、
第1のセマンティックデータモデルの各層を訓練する場合に、前記最上位層によるmaskの予測結果が前記訓練コーパスにおけるmaskに対応する文字に一致することを訓練目標とする、請求項1または2に記載の方法。 - 前記第2のセマンティックデータモデルの出力結果と前記第1のセマンティックデータモデルの出力結果とをアラインメントすることは、
前記第1のセマンティックデータモデルの出力結果と前記第2のセマンティックデータモデルの出力結果とをアラインメントモデルに入力し、
前記アラインメントモデルにより、第1のセマンティックデータモデルの出力結果における文字のベクトル表示と第2のセマンティックデータモデルの出力結果における文字のベクトル表示とのドット積を利用して、第2のセマンティックデータモデルの出力結果における文字のベクトル表示に対して重み付け処理を行い、新たなベクトル表示を得、前記新たなベクトル表示を用いて全連結層(Softmax)のマッピングを行い、第2の言語の訓練コーパスにおける文字の予測結果を得る、
ことを含む請求項1又は2に記載の方法。 - 前記第2の言語の訓練コーパスに第2の言語を用いたマスク(mask)付きテキストおよび前記maskに対応する文字が含まれている場合に、訓練目標は、前記第2の言語の訓練コーパスにおけるmaskの予測結果が前記訓練コーパスにおけるmaskに対応する文字に一致することであり、
前記第2の言語の訓練コーパスが第2の言語のmaskなしテキストである場合に、訓練目標は、前記第2の言語の訓練コーパスにおける各文字の予測結果が前記訓練コーパスにおける各文字に一致することである、
請求項4に記載の方法。 - セマンティックデータモデル(Semantic data Model)の訓練装置であって、前記セマンティックデータモデルは、Embedding Layerを最下位層として、Task Layerを最上位層として、Transformer Blockを他の層として含むニューラルネットワークであり、
前記セマンティックデータモデルの訓練装置は、
第1の言語により訓練されたセマンティックデータモデルを第1のセマンティックデータモデルとして取得する第1の取得部と、
前記第1のセマンティックデータモデルの最下位層及び最上位層を訓練対象層として訓練対象層を初期化し、他の層のモデルパラメータを変更せず、訓練終了条件に達するまで第2の言語の訓練コーパスを用いて訓練対象層を訓練し、未訓練の各層を下から順に訓練対象層に加え、且つ、訓練対象層以外の他の層のモデルパラメータを変更せず、訓練終了条件に達するまで第2の言語の訓練コーパスを用いて訓練対象層をそれぞれ訓練することをそれぞれ実行し、すべての層の訓練が終了した後、第2の言語に対するセマンティックデータモデルを得る訓練部と、
第1の言語により訓練された前記セマンティックデータモデルを第2のセマンティックデータモデルとして取得する第2の取得部と、を備え、
前記訓練部は、前記第2の言語の訓練コーパスを用いて訓練対象層を訓練する場合に、前記第2の言語の訓練コーパスに対応する第1の言語のパラレルコーパスを前記第2のセマンティックデータモデルに入力し、前記第2のセマンティックデータモデルの出力結果と前記第1のセマンティックデータモデルの出力結果とをアラインメントし、
前記第2のセマンティックデータモデルの出力結果と前記第1のセマンティックデータモデルの出力結果とをアラインメントすることは、
前記第2のセマンティックデータモデルの出力結果と前記第1のセマンティックデータモデルの出力結果とにより、第2の言語の訓練コーパスにおける文字に対する予測結果が得られ、第2の言語の訓練コーパスにおける文字に対する予測結果が対応する第2の言語の訓練コーパスにおける期待文字に一致するように、訓練対象層のモデルパラメータを更新することを含む、
装置。 - 前記セマンティックデータモデルはTransformerモデルを含む、請求項6に記載の装置。
- 前記第2の言語の訓練コーパスは、第2の言語を用いたマスク(mask)付きテキスト及び前記maskに対応する文字を含み、
前記訓練部は、第1のセマンティックデータモデルの各層を訓練する場合に、前記最上位層によるmaskの予測結果が前記訓練コーパスにおけるmaskに対応する文字に一致することを訓練目標とする、請求項6または7に記載の装置。 - 前記訓練部は、前記第2のセマンティックデータモデルの出力結果と前記第1のセマンティックデータモデルの出力結果とをアラインメントする場合に、具体的に、
前記第1のセマンティックデータモデルの出力結果と前記第2のセマンティックデータモデルの出力結果とをアラインメントモデルに入力し、
前記アラインメントモデルにより、第1のセマンティックデータモデルの出力結果における文字のベクトル表示と第2のセマンティックデータモデルの出力結果における文字のベクトル表示とのドット積を利用して、第2のセマンティックデータモデルの出力結果における文字のベクトル表示に対して重み付け処理を行い、新たなベクトル表示を得、前記新たなベクトル表示を用いて全連結層(Softmax)のマッピングを行い、第2の言語の訓練コーパスにおける文字の予測結果を得る、
請求項8に記載の装置。 - 前記第2の言語の訓練コーパスに前記第2の言語を用いたマスク(mask)付きテキストおよび前記maskに対応する文字が含まれている場合に、訓練目標は、前記第2の言語の訓練コーパスにおけるmaskの予測結果が前記訓練コーパスにおけるmaskに対応する文字に一致することであり、
前記第2の言語の訓練コーパスが第2の言語のmaskなしテキストである場合に、訓練目標は、前記第2の言語の訓練コーパスにおける各文字の予測結果が前記訓練コーパスにおける各文字に一致することである、
請求項8に記載の装置。 - 少なくとも1つのプロセッサと、
前記少なくとも1つのプロセッサと通信接続されたメモリと、を備え、
前記メモリに前記少なくとも1つのプロセッサにより実行可能なコマンドが記憶されており、前記コマンドが前記少なくとも1つのプロセッサにより実行されると、前記少なくとも1つのプロセッサに請求項1~5のいずれか一項に記載の方法を実行させる電子デバイス。 - コンピュータに請求項1~5のいずれか一項に記載の方法を実行させるためのコンピュータコマンドが記憶された非一時的なコンピュータ可読記憶媒体。
- コンピュータに請求項1~5のいずれか一項に記載の方法を実行させるためのコンピュータプログラム。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010638228.9A CN111539227B (zh) | 2020-07-06 | 2020-07-06 | 训练语义表示模型的方法、装置、设备和计算机存储介质 |
CN202010638228.9 | 2020-07-06 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2022014429A JP2022014429A (ja) | 2022-01-19 |
JP7267342B2 true JP7267342B2 (ja) | 2023-05-01 |
Family
ID=71968594
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021074989A Active JP7267342B2 (ja) | 2020-07-06 | 2021-04-27 | 語義表現モデルの訓練方法、装置、デバイス及びコンピュータ記憶媒体 |
Country Status (5)
Country | Link |
---|---|
US (1) | US11914964B2 (ja) |
EP (1) | EP3937060A1 (ja) |
JP (1) | JP7267342B2 (ja) |
KR (1) | KR102567635B1 (ja) |
CN (1) | CN111539227B (ja) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11475226B2 (en) * | 2020-09-21 | 2022-10-18 | International Business Machines Corporation | Real-time optimized translation |
CN112528669B (zh) | 2020-12-01 | 2023-08-11 | 北京百度网讯科技有限公司 | 多语言模型的训练方法、装置、电子设备和可读存储介质 |
CN113033801A (zh) * | 2021-03-04 | 2021-06-25 | 北京百度网讯科技有限公司 | 神经网络模型的预训练方法、装置、电子设备和介质 |
CN112989844A (zh) * | 2021-03-10 | 2021-06-18 | 北京奇艺世纪科技有限公司 | 一种模型训练及文本识别方法、装置、设备及存储介质 |
CN113011126B (zh) * | 2021-03-11 | 2023-06-30 | 腾讯科技(深圳)有限公司 | 文本处理方法、装置、电子设备及计算机可读存储介质 |
CN113590865B (zh) * | 2021-07-09 | 2022-11-22 | 北京百度网讯科技有限公司 | 图像搜索模型的训练方法及图像搜索方法 |
CN114926460B (zh) * | 2022-07-19 | 2022-10-25 | 合肥综合性国家科学中心人工智能研究院(安徽省人工智能实验室) | 眼底图像分类模型的训练方法、眼底图像分类方法及系统 |
CN115982583A (zh) * | 2022-12-30 | 2023-04-18 | 北京百度网讯科技有限公司 | 预训练语言模型的训练方法、装置、设备和介质 |
CN116932728B (zh) * | 2023-08-30 | 2024-01-26 | 苏州浪潮智能科技有限公司 | 语言交互方法、装置、通信设备及存储介质 |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108846126B (zh) * | 2018-06-29 | 2021-07-27 | 北京百度网讯科技有限公司 | 关联问题聚合模型的生成、问答式聚合方法、装置及设备 |
CN111160016B (zh) * | 2019-04-15 | 2022-05-03 | 深圳碳云智能数字生命健康管理有限公司 | 语义识别方法、装置、计算机可读存储介质和计算机设备 |
US11586930B2 (en) * | 2019-04-16 | 2023-02-21 | Microsoft Technology Licensing, Llc | Conditional teacher-student learning for model training |
US11604965B2 (en) * | 2019-05-16 | 2023-03-14 | Salesforce.Com, Inc. | Private deep learning |
CN110209817B (zh) * | 2019-05-31 | 2023-06-09 | 安徽省泰岳祥升软件有限公司 | 文本处理模型的训练方法、装置和文本处理方法 |
US11620515B2 (en) * | 2019-11-07 | 2023-04-04 | Salesforce.Com, Inc. | Multi-task knowledge distillation for language model |
CN110717339B (zh) * | 2019-12-12 | 2020-06-30 | 北京百度网讯科技有限公司 | 语义表示模型的处理方法、装置、电子设备及存储介质 |
CN111310474A (zh) * | 2020-01-20 | 2020-06-19 | 桂林电子科技大学 | 基于激活-池化增强bert模型的在线课程评论情感分析方法 |
CN111159416B (zh) * | 2020-04-02 | 2020-07-17 | 腾讯科技(深圳)有限公司 | 语言任务模型训练方法、装置、电子设备及存储介质 |
-
2020
- 2020-07-06 CN CN202010638228.9A patent/CN111539227B/zh active Active
-
2021
- 2021-03-19 EP EP21163589.1A patent/EP3937060A1/en not_active Ceased
- 2021-03-22 US US17/209,124 patent/US11914964B2/en active Active
- 2021-04-20 KR KR1020210050852A patent/KR102567635B1/ko active IP Right Grant
- 2021-04-27 JP JP2021074989A patent/JP7267342B2/ja active Active
Non-Patent Citations (2)
Title |
---|
Abrhalei Tela 他2名,Transferring Monolingual Model to Low-Resource Language: The Case of Tigrinya[online],2020年06月19日,[令和04年05月17日検索],インターネット<URL:https://arxiv.org/pdf/2006.07698.pdf> |
大熊顕至,ニューラルネットワークのモデルのバリエーション[online],2015年09月09日,[令和04年05月17日検索],インターネット<URL:https:/thinkit.co.jp/story/2015/09/09/6399> |
Also Published As
Publication number | Publication date |
---|---|
CN111539227A (zh) | 2020-08-14 |
JP2022014429A (ja) | 2022-01-19 |
KR102567635B1 (ko) | 2023-08-16 |
US11914964B2 (en) | 2024-02-27 |
EP3937060A1 (en) | 2022-01-12 |
CN111539227B (zh) | 2020-12-18 |
US20220004716A1 (en) | 2022-01-06 |
KR20220005384A (ko) | 2022-01-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7267342B2 (ja) | 語義表現モデルの訓練方法、装置、デバイス及びコンピュータ記憶媒体 | |
JP7122365B2 (ja) | テキスト認識処理方法、装置、電子機器及び記憶媒体 | |
JP7214954B2 (ja) | 言語モデルのトレーニング方法、装置、電子機器、プログラム及び可読記憶媒体 | |
JP7194150B2 (ja) | ドキュメントのベクトル化表現方法、ドキュメントのベクトル化表現装置及びコンピュータ機器 | |
JP7250052B2 (ja) | 自然言語及び知識グラフに基づく表現学習方法及び装置 | |
CN111598216B (zh) | 学生网络模型的生成方法、装置、设备及存储介质 | |
JP7098853B2 (ja) | ラベルラベリングモデルを確立する方法、装置、電子機器、プログラム及び可読記憶媒体 | |
US20210374359A1 (en) | Method, electronic device, and storage medium for training text generation model | |
JP7222162B2 (ja) | 機械翻訳におけるモデルトレーニング方法、装置、電子機器、プログラム及び記憶媒体 | |
JP7179123B2 (ja) | 言語モデルの訓練方法、装置、電子デバイス及び可読記憶媒体 | |
KR102521765B1 (ko) | 인과 관계의 판별 방법, 장치, 전자 기기 및 저장 매체 | |
JP7234483B2 (ja) | エンティティリンキング方法、装置、電子デバイス、記憶媒体及びプログラム | |
JP2022018095A (ja) | マルチモーダル事前訓練モデル取得方法、装置、電子デバイス及び記憶媒体 | |
JP7242993B2 (ja) | 多言語語義表現モデルの訓練方法、装置、デバイス及び記憶媒体 | |
US20210334659A1 (en) | Method and apparatus for adversarial training of machine learning model, and medium | |
US11182648B2 (en) | End-to-end model training method and apparatus, and non-transitory computer-readable medium | |
CN112528669B (zh) | 多语言模型的训练方法、装置、电子设备和可读存储介质 | |
CN110597959A (zh) | 文本信息抽取方法、装置以及电子设备 | |
JP2021131858A (ja) | エンティティワードの認識方法と装置 | |
CN111709252B (zh) | 基于预训练的语义模型的模型改进方法及装置 | |
CN112148871A (zh) | 摘要生成方法、装置、电子设备及存储介质 | |
JP7286737B2 (ja) | テキスト誤り訂正方法、装置、電子デバイス、記憶媒体及びプログラム | |
EP3855341A1 (en) | Language generation method and apparatus, electronic device and storage medium | |
JP7146986B2 (ja) | 情報抽出方法、情報抽出装置及び電子機器 | |
CN111539225B (zh) | 语义理解框架结构的搜索方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210427 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20220517 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220607 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220826 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20221115 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230217 |
|
C60 | Trial request (containing other claim documents, opposition documents) |
Free format text: JAPANESE INTERMEDIATE CODE: C60 Effective date: 20230217 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20230224 |
|
C21 | Notice of transfer of a case for reconsideration by examiners before appeal proceedings |
Free format text: JAPANESE INTERMEDIATE CODE: C21 Effective date: 20230228 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230411 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230419 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7267342 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |