JP7190017B2 - 言語モデルのトレーニング方法、装置、及び電子機器 - Google Patents

言語モデルのトレーニング方法、装置、及び電子機器 Download PDF

Info

Publication number
JP7190017B2
JP7190017B2 JP2021174059A JP2021174059A JP7190017B2 JP 7190017 B2 JP7190017 B2 JP 7190017B2 JP 2021174059 A JP2021174059 A JP 2021174059A JP 2021174059 A JP2021174059 A JP 2021174059A JP 7190017 B2 JP7190017 B2 JP 7190017B2
Authority
JP
Japan
Prior art keywords
syntax
slot
weight
diagram
count
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2021174059A
Other languages
English (en)
Other versions
JP2022006183A (ja
Inventor
チャン,リャオ
ジャン,ジェンシャン
フ,シャオイン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Publication of JP2022006183A publication Critical patent/JP2022006183A/ja
Application granted granted Critical
Publication of JP7190017B2 publication Critical patent/JP7190017B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/253Grammatical analysis; Style critique
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F7/00Methods or arrangements for processing data by operating upon the order or content of the data handled
    • G06F7/38Methods or arrangements for performing computations using exclusively denominational number representation, e.g. using binary, ternary, decimal representation
    • G06F7/48Methods or arrangements for performing computations using exclusively denominational number representation, e.g. using binary, ternary, decimal representation using non-contact-making devices, e.g. tube, solid state device; using unspecified devices
    • G06F7/544Methods or arrangements for performing computations using exclusively denominational number representation, e.g. using binary, ternary, decimal representation using non-contact-making devices, e.g. tube, solid state device; using unspecified devices for evaluating functions by calculation
    • G06F7/5443Sum of products
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/19Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Computational Mathematics (AREA)
  • Computing Systems (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Machine Translation (AREA)

Description

本願は、コンピュータ技術の分野における音声、自然言語処理、深層学習技術の分野に関し、特に言語モデルのトレーニング方法、装置、電子機器、及び記憶媒体に関する。
現在、音声認識技術は、スマート家電、ロボット、車載端末などの分野で広く応用されており、関連技術では予めトレーニングされた言語モデルに基づいて音声を認識することが多く、言語モデルの性能を向上させるために、大量のコーパスデータを使用して言語モデルをトレーニングする必要があり、コーパスデータの数が過剰であり、モデルトレーニングは、比較的多くのストレージリソースと計算リソースを消費する必要があり、且つ、トレーニング時間が長く、トレーニング効率が低い。
本願は、言語モデルのトレーニング方法、装置、電子機器及び記憶媒体を提供する。
第1の態様によれば、言語モデルのトレーニング方法を提供し、セマンティック解析モジュールを使用して、サンプルテキストに対応する構文及び前記構文におけるスロットに対応するスロット値を取得するステップと、前記構文及び前記構文における前記スロットに対応するスロット値に基づいて、前記構文に対応する構文図を生成するステップと、前記サンプルテキストに基づいて、前記構文図における前記構文の重み、前記スロットの重み及び前記スロット値の重みを取得するステップと、前記構文図における前記構文の重み、前記スロットの重み及び前記スロット値の重みに基づいて、異なる次数の構文カウントを計算するステップと、前記構文カウントに基づいて、言語モデルのトレーニングを行うステップと、を含む。
第2の態様によれば、言語モデルのトレーニング装置を提供し、サンプルテキストに対応する構文及び前記構文におけるスロットに対応するスロット値を取得するためのセマンティック解析モジュールと、前記構文及び前記構文における前記スロットに対応するスロット値に基づいて、前記構文に対応する構文図を生成するための生成モジュールと、前記サンプルテキストに基づいて、前記構文図における前記構文の重み、前記スロットの重み及び前記スロット値の重みを取得するための第2の取得モジュールと、前記構文図における前記構文の重み、前記スロットの重み及び前記スロット値の重みに基づいて、異なる次数の構文カウントを計算するための計算モジュールと、前記構文カウントに基づいて、言語モデルのトレーニングを行うためのトレーニングモジュールと、を含む。
第3の態様によれば、電子機器を提供し、少なくとも1つのプロセッサと、前記少なくとも1つのプロセッサに通信可能に接続されるメモリと、を含み、前記メモリには、前記少なくとも1つのプロセッサによって実行される命令が記憶され、前記命令は、前記少なくとも1つのプロセッサが本願の第1の態様に記載の言語モデルのトレーニング方法を実行できるように、前記少なくとも1つのプロセッサによって実行される。
第4の態様によれば、コンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体を提供し、前記コンピュータ命令は、コンピュータに本願の第1の態様に記載の言語モデルのトレーニング方法を実行させる。
第5の態様によれば、コンピュータプログラムを提供し、前記コンピュータプログラムは、コンピュータに本願の第1の態様に記載の言語モデルのトレーニング方法を実行させる。
この部分に記載されている内容は、本開示の実施例の肝心な又は重要な特徴を特定することを意図しておらず、本開示の範囲を限定するものでもないことが理解されるであろう。本開示の他の特徴は、以下の説明を通じて容易に理解される。
図面は、本技術案をよりよく理解するために使用され、本願を限定するものではない。
本願の第1の実施例に係る言語モデルのトレーニング方法の概略フローチャートである。 本願の第2の実施例に係る言語モデルのトレーニング方法における構文図の概略図であり、「我想听」とは、日本語で「聞きたい」という意味であり、「歌手」とは、日本語で「歌手」という意味であり、「的」とは、日本語で「の」という意味であり、「歌曲」とは、日本語で「歌」という意味である。 本願の第3の実施例に係る言語モデルのトレーニング方法における構文図の概略図であり、「我想听」とは、日本語で「聞きたい」という意味であり、「歌曲」とは、日本語で「歌」という意味である。 本願の第4の実施例に係る言語モデルのトレーニング方法において、構文及び構文におけるスロットに対応するスロット値に基づいて構文に対応する構文図を生成する概略フローチャートである。 本願の第5の実施例に係る言語モデルのトレーニング方法において、サンプルテキストに基づいて構文図における構文の重み、スロットの重み及びスロット値の重みを取得する概略フローチャートである。 本願の第6の実施例に係る言語モデルのトレーニング方法において、N次の構文カウントを取得する概略フローチャートである。 本願の第1の実施例に係る言語モデルのトレーニング装置のブロック図である。 本願の実施例に係る言語モデルのトレーニング方法を実現するための電子機器のブロック図である。
以下、図面と組み合わせて本願の例示的な実施例を説明し、理解を容易にするためにその中には本願の実施例の様々な詳細事項が含まれており、それらは単なる例示的なものと見なされるべきである。そのため、当業者は、本願の範囲及び精神から逸脱することなく、ここで説明される実施例に対して様々な変更と修正を行うことができることを理解すべきである。同様に、わかりやすく且つ簡潔にするために、以下の説明では、周知の機能及び構造の説明を省略する。
音声は、音声認識、音声インタラクションなどの技術分野を含んでもよく、人工知能の分野における重要な方向の1つである。
音声認識(Voice Recognition)は、機械が認識と理解により音声信号を対応するテキスト又は命令に変換できるようにする技術であり、主に、特徴抽出技術、パターンマッチング基準及びモデルトレーニング技術の3つの方面を含む。
音声インタラクション(Voice Interaction)は、機械とユーザが音声を情報キャリアとして、対話、通信、情報交換などのインタラクション行動を行う技術であり、従来のマンマシンインタラクションに比べて、便利且つ迅速であり、ユーザの快適性が高いという利点を有する。
自然言語処理(Natual Language Processing、NLU)は、自然言語通信を効果的に実現できるコンピュータシステム、特にその中のソフトウェアシステムを研究する科学であり、コンピュータ科学分野と人工知能の分野における重要な方向の1つである。
深層学習(Deep Learing、DL)は、機械学習(Machine Learing、ML)の分野における新たな研究方向であり、サンプルデータの内部法則と表現レベルを学習することにより、機械が人間のように分析及び学習の能力を有し、文字、画像及び音声などのデータを認識できるようにする科学であり、音声や画像の認識に広く応用されている。
図1は、本願の第1の実施例に係る言語モデルのトレーニング方法の概略フローチャートである。
図1に示すように、本願の第1の実施例に係る言語モデルのトレーニング方法は、ステップS101~S105を含む。
S101において、セマンティック解析モジュールを使用して、サンプルテキストに対応する構文及び構文におけるスロットに対応するスロット値を取得する。
なお、本願の実施例に係る言語モデルのトレーニング方法の実行主体は、データ情報処理能力を有するハードウェア機器及び/又は当該ハードウェア機器の動作を駆動することに必要なソフトウェアであってもよい。選択的に、実行主体は、ワークステーション、サーバ、コンピュータ、ユーザ端末及び他の機器を含んでもよい。ここで、ユーザ端末は、携帯電話、コンピュータ、スマート音声インタラクション機器、スマート家電、車載端末などを含むが、これらに限定されない。
本開示の実施例では、予めトレーニングされた言語モデルにより音声認識を行うことができ、言語モデルがサンプルテキストに基づいてトレーニングして取得できる。選択的に、言語モデルはNgramモデルであってもよい。
選択的に、サンプルテキストは、ユーザ入力、ウェブクロールなどの方式で取得してもよく、ここではあまり多く限定されない。
なお、サンプルテキストには、対応する構文及び構文におけるスロットに対応するスロット値情報が含まれる。ここで、構文とはサンプルテキストの文法的構成であり、各構文は少なくとも1つのスロット(Slot)で構成され、各スロットは少なくとも1つのスロット値に対応する。
なお、異なるサンプルテキストは、異なる構文、スロット及びスロット値に対応することができるため、複数のサンプルテキストに基づいて、複数の構文、及び各構文におけるスロットに対応する複数のスロット値を取得することができる。
例えば、サンプルテキスト1は「我想听A的B」(日本語で「AのBを聞きたい」)であり、ここで、Aはある歌手の名前で、Bはある歌の名前である場合、サンプルテキスト1に対応する中国語の構文は「我想听」+「歌手」+「的」+「歌曲」(日本語の構文で「歌手」+「の」+「歌」+「を聞きたい」と理解される)であってもよく、中国語の構文には、「我想听」、「歌手」、「的」、及び「歌曲」の4つのスロットが順に含まれ、サンプルテキスト1に対応する中国語の構文における「歌手」のスロットに対応するスロット値はAであり、「歌曲」のスロットに対応するスロット値はBであることが分かる。
又は、サンプルテキスト2が「我想听B」(日本語で「Bを聞きたい」)であり、ここで、Bがある歌の名前である場合、サンプルテキスト2に対応する中国語の構文は「我想听」+「歌曲」(日本語の構文で「歌」+「を聞きたい」と理解される)であってもよく、中国語の構文には、「我想听」と、「歌曲」との2つのスロットが順に含まれ、サンプルテキスト2に対応する中国語の構文における「歌曲」のスロットに対応するスロット値はBであることが分かる。
又は、サンプルテキスト3が
Figure 0007190017000001
(日本語で「明日、杭州の天気はどうであるか」)の場合、サンプルテキスト3に対応する中国語の構文は、「時間」+「場所」+「の」+「天気」+「どうであるか」であり、中国語の構文には、「時間」、「場所」、「の」、「天気」、及び「どうであるか」の5つのスロットが順に含まれ、サンプルテキスト3に対応する中国語の構文における「時間」のスロットに対応するスロット値は明日であり、「場所」のスロットに対応するスロット値は杭州であることが分かる。
選択的に、構文は、構文の開始フィールドを識別する開始スロット、及び構文の終了フィールドを識別する終了スロットを含んでもよく、開始スロット及び終了スロットはいずれも予め設定された文字、文字列などの形態で表示することができ、例えば、開始スロットは「s」で、終了スロットは「/s」であってもよい。
例えば、サンプルテキスト4が「s我想听B/s」(日本語で「sBを聞きたい/s」)であり、ここで、Bがある歌の名前で、sが予め設定された開始スロットで、/sが予め設定された終了スロットである場合、サンプルテキスト4に対応する中国語の構文は、「s」+「我想听」+「歌曲」+「/s」(日本語の構文で「s」+「歌」+「を聞きたい」+「/s」と理解される)であってもよく、中国語の構文には、「s」、「我想听」、「歌曲」、及び「/s」の4つのスロットが順に含まれ、サンプルテキスト4に対応する中国語の構文における「歌曲」のスロットに対応するスロット値はBであることが分かる。
本開示の実施例では、サンプルテキストが取得された後に、セマンティック解析モジュールによりサンプルテキストから構文及び構文におけるスロットに対応するスロット値を抽出することができ、例えば、セマンティック解析モジュールによりサンプルテキストのセマンティックテキストを取得し、続いてサンプルテキストのセマンティックテキストから構文及び構文におけるスロットに対応するスロット値を抽出することができる。さらに、言語モデルをトレーニングする時に取得するために、セマンティック解析モジュールによってサンプルテキストから抽出された構文及び構文におけるスロットに対応するスロット値をサーバの記憶スペースに記憶することもできる。
なお、関連技術において人手による抽出方式で構文及び構文におけるスロットに対応するスロット値を取得することに比べて、当該方法は、取得効率が高く、自動化程度が高く、人件費が低いなどの利点を有する。
選択的に、セマンティック解析モジュールは自然言語理解(Natual Language Understanding、NLU)セマンティック解析モジュールであってもよい。
S102において、構文及び構文におけるスロットに対応するスロット値に基づいて、構文に対応する構文図を生成する。
なお、異なる構文は異なる構文図に対応することができ、各構文におけるスロットに対応するスロット値に基づいて、構文に対応する構文図を生成することができる。
例えば、中国語の構文は「s」+「我想听」+「歌手」+「的」+「歌曲」+「/s」(日本語の構文で「s」+「歌手」+「の」+「歌」+「を聞きたい」+「/s」と理解される)であり、sは予め設定された開始スロットであり、/sは予め設定された終了スロットであり、「歌手」のスロットに対応するスロット値にはA、A、A~Aが含まれ、「歌曲」のスロットに対応するスロット値にはB、B、B~Bが含まれる場合、構文に対応する構文図は図2に示すとおりである。ここで、m、nはいずれも正の整数であり、いずれも実際の状況に応じて設定することができる。
例えば、中国語の構文は「s」+「我想听」+「歌曲」+「/s」(日本語の構文で「s」+「歌」+「を聞きたい」+「/s」と理解される)であり、sは予め設定された開始スロットであり、/sは予め設定された終了スロットであり、「歌曲」のスロットに対応するスロット値にはB、B、B~Bが含まれる場合、構文に対応する構文図は図3に示すとおりである。ここで、nは正の整数であり、実際の状況に応じて設定することができる。
なお、構文図は、図2、3に示す他の形態であってもよく、ここではあまり多く限定しない。
S103において、サンプルテキストに基づいて、構文図における構文の重み、スロットの重み及びスロット値の重みを取得する。
本開示の実施例では、各構文、スロット、スロット値はいずれも1つの重みに対応し、重みは構文カウント(Count)を計算することに用いられることができる。
なお、サンプルテキストに基づいて、構文図における構文の重み、スロットの重み及びスロット値の重みを取得することができる。
サンプルテキストに基づいて構文図における構文の重みを取得することを例として、構文の重みは全てのサンプルテキストにおける構文の出現頻度と正の相関があり、すなわち、全てのサンプルテキストにおける構文の出現頻度が高いほど、構文の重みが大きくなり、そのため、全てのサンプルテキストにおける構文の出現頻度に基づいて、構文図における構文の重みを取得することができる。
なお、全てのサンプルテキストにおけるある構文の出現頻度が高いほど、当該構文とユーザの言語習慣及び/又はインタラクションニーズとの適合度が高くなることが示され、当該方法は、構文の重みを取得する時に、全てのサンプルテキストにおける構文の出現頻度を考慮できるため、構文の重みに構文とユーザの言語習慣及び/又はインタラクションニーズとの適合度を反映させ、比較的柔軟且つ正確である。
なお、サンプルテキストに基づいて構文図におけるスロットの重み、スロット値の重みを取得する関連内容は、サンプルテキストに基づいて構文図における構文の重みを取得する関連内容を参照することができ、ここでは説明を省略する。
S104において、構文図における構文の重み、スロットの重み及びスロット値の重みに基づいて、異なる次数の構文カウントを計算する。
本開示の実施例では、構文カウントの次数は構文に含まれるスロットの数に関連している。例えば、ある構文がN個のスロットを含む場合、当該構文は、1次、2次、3次~N次の構文に対応することができる。
選択的に、構文図における構文の重み、スロットの重み及びスロット値の重みに基づいて、異なる次数の構文カウントを計算するステップは、異なる次数の構文カウントの計算ポリシーを予め設定し、異なる次数の構文カウントの計算ポリシーに基づいて、異なる次数の構文カウントを計算するステップを含む。なお、計算ポリシーは実際の状況に応じて設定することができ、サーバの記憶スペースに予め設定することができる。
例えば、1つの構文のみが存在し、当該構文の重みが1であり、当該構文が6つのスロットを含み、各スロットがいずれも1つのスロット値のみを含む場合、当該構文における各スロットの重みはそれに含まれるスロット値の重みに等しく、6つのスロットに対応する重みがそれぞれw、w、w~wであると仮定すると、1次の構文カウントは6つの値を含んでもよく、計算ポリシーはそれぞれw*w*w*w*w、w*w*w*w*w、w*w*w*w*w、w*w*w*w*w、w*w*w*w*w、w*w*w*w*wであり、2次の構文カウントは5つの値を含んでもよく、計算ポリシーはそれぞれw*w*w*w、w*w*w*w、w*w*w*w、w*w*w*w、w*w*w*wであり、他の次数の構文カウントの計算ポリシーは上記の1次の構文カウント及び2次の構文カウントの計算ポリシーを参照して設定することができ、ここでは説明を省略する。
S105において、構文カウントに基づいて、言語モデルのトレーニングを行う。
本開示の実施例では、異なる次数の構文カウントが取得された後、異なる次数の構文カウントに基づいて言語モデルのトレーニングを行うことができる。
なお、本願では、構文図における構文の重み、スロットの重み及びスロット値の重みに基づいて、異なる次数の構文カウントを直接計算することができ、構文カウントの計算効率がより高く、それにより言語モデルのトレーニング時間を大幅に短縮することができ、言語モデルの性能がより優れている。
要約すると、本願の実施例に係る言語モデルのトレーニング方法によれば、構文図における構文の重み、スロットの重み及びスロット値の重みに基づいて、異なる次数の構文カウントを直接計算することができ、関連技術においてサンプルテキスト拡張に基づいてコーパスを取得し、続いてコーパスを統計して構文カウントを取得するという解決手段に比べて、コーパス拡張を必要とせず構文カウントを取得することができ、関連技術におけるコーパスの数が過剰であるという問題を解決し、構文カウントの計算効率がより高く、モデルのトレーニング中に消費されるストレージリソースと計算リソースを大幅に削減することができ、さらに、言語モデルのトレーニング時間を大幅に短縮することができ、言語モデルの性能がより優れている。
上記のいずれかの実施例に基づいて、図4に示すように、構文及び構文におけるスロットに対応するスロット値に基づいて、構文に対応する構文図を生成するステップS102は、ステップ401及び402を含んでもよい。
S401において、構文におけるスロットを順に有向に接続する。
なお、構文におけるスロットは前後の順序を有するため、構文におけるスロットを互いの優先順位に従って順に有向に接続することができる。選択的に、構文における隣接するスロットを接続し、接続方向は、隣接するスロットにおける前のスロットから後のスロットである。
引き続き図2を例として、中国語の構文は「s」+「我想听」+「歌手」+「的」+「歌曲」+「/s」であり、中国語の構文には、「s」、「我想听」、「歌手」、「的」、「歌曲」、及び「/s」の6つのスロットが順に含まれ、ここで、sは予め設定された開始スロットであり、/sは予め設定された終了スロットである。そのため、構文に対応する構文図を生成する時に、「s」のスロットと「我想听」のスロットを接続し、接続方向は「s」のスロットから「我想听」のスロットであり、「我想听」のスロットと「歌手」のスロットを接続し、接続方向は「我想听」のスロットから「歌手」のスロットであり、他のスロットの有向接続は上記の接続方式を参照することができ、ここでは説明を省略する。
選択的に、構文は有向非巡回グラフ(Directed Acyclic Graph、DAG)であってもよく、有向非巡回グラフの接続ルールに従って構文におけるスロットを順に有向に接続することができる。
S402において、スロットに対応するスロット値に基づいてスロットを拡張し、構文に対応する構文図を取得する。
なお、各スロットが複数のスロット値に対応することができ、スロットに対応するスロット値に基づいてスロットを拡張して、構文に対応する構文図を生成することができる。
引き続き図2を例として、「歌手」のスロットに対応するスロット値にはA、A、A~Aが含まれ、「歌曲」のスロットに対応するスロット値にはB、B、B~Bが含まれる場合、「歌手」のスロットを拡張するために、「歌手」のスロットに対応するスロット値A、A、A~Aを「我想听」のスロット及び「的」のスロットにそれぞれ有向に接続してもよく、また、「歌曲」のスロットを拡張するために、「歌曲」のスロットに対応するスロット値B、B、B~Bを「的」のスロット及び「/s」のスロットにそれぞれ有向に接続してもよく、生成した構文図は図2に示すとおりである。
これにより、当該方法は、構文におけるスロットを順に有向に接続し、スロットに対応するスロット値に基づいてスロットを拡張して、構文に対応する構文図を取得する。
上記のいずれかの実施例に基づいて、図5に示すように、サンプルテキストに基づいて、構文図における構文の重み、スロットの重み及びスロット値の重みを取得するステップS103は、ステップS501及びS502を含んでもよい。
S501において、サンプルテキストを構文図に注入し、構文図におけるアクティブ化されたパスを記録する。
なお、構文図は複数のパスを含んでもよく、各パスは少なくとも1つのスロットで構成され、各パス上の各スロットが1つのスロット値に対応する。選択的に、サンプルテキストを構文図に注入する時に、サンプルテキストに構文図におけるあるパスが存在すれば、当該パスがアクティブ化され、構文図におけるアクティブ化されたパスを記録することができる。
引き続き図2を例として、構文図には「我想听」+「A」+「的」+「B」のパス1が含まれ、パス1は「我想听」、「歌手」、「的」、「歌曲」の4つのスロットが順に含まれ、「歌手」のスロットに対応するスロット値はAであり、「歌曲」のスロットに対応するスロット値はBである。サンプルテキスト5が「我想听A的B」である場合、サンプルテキスト5を図2に示す構文図に注入する時に、構文図における「我想听」+「A」+「的」+「B」のパス1がアクティブ化される。
S502において、構文図におけるアクティブ化されたパスに基づいて、構文図における構文の重み、スロットの重み及びスロット値の重みを取得する。
構文図におけるアクティブ化されたパスに基づいて、構文図における構文の重みを取得することを例として、構文の重みは構文図における全てのパスがアクティブ化された合計回数と正の相関があり、すなわち構文図における全てのパスがアクティブ化された合計回数が多いほど、構文の重みが大きくなり、そのため、構文図における全てのパスがアクティブ化された合計回数に基づいて、構文図における構文の重みを取得することができる。
なお、ある構文図における全てのパスがアクティブ化された合計回数が多いほど、当該構文とユーザの言語習慣及び/又はインタラクションニーズとの適合度が高くなることが示され、逆に、ある構文図における全てのパスがアクティブ化された合計回数が少ないほど、当該構文にはスムーズではないという問題がある可能性が高い。当該方法では、構文とユーザの言語習慣及び/又はインタラクションニーズとの適合度が高いほど、構文の重みが高くなり、構文にはスムーズではないという問題があれば、構文の重みが比較的低く、構文の重みが構文とユーザの言語習慣及び/又はインタラクションニーズとの適合度を反映できるようにし、比較的柔軟且つ正確であり、さらにノイズ抑制の効果を有する。
なお、構文図におけるアクティブ化されたパスに基づいて構文図におけるスロットの重み、スロット値の重みを取得する関連内容は、構文図におけるアクティブ化されたパスに基づいて構文図における構文の重みを取得する関連内容を参照することができ、ここでは説明を省略する。
選択的に、構文に対応する構文図を生成する時に、構文図における構文の重み、スロットの重み及びスロット値の重みを初期化してから、サンプルテキストを構文図に注入するステップ及び次のステップを実行することができる。例えば、構文図における構文の重み、スロットの重み及びスロット値の重みを初期化するステップは、構文図における構文の重み、スロットの重み及びスロット値の重みをいずれも1とするステップを含んでもよい。
これにより、当該方法は、サンプルテキストを構文図に注入し、構文図におけるアクティブ化されたパスを記録し、構文図におけるアクティブ化されたパスに基づいて、構文図における構文の重み、スロットの重み及びスロット値の重みを取得することができ、関連技術において人手によるラベリングの方式を使用して構文の重み、スロットの重み及びスロット値の重みを取得することに比べて、サンプルテキストに基づいて重みの自動的な更新を実現することができ、重みがユーザの言語習慣及び/又は実際のニーズにより近づき、取得効率が高く、自動化程度が高く、人件費が低いなどの利点を有する。
上記のいずれかの実施例に基づいて、構文図における構文の重み、スロットの重み及びスロット値の重みに基づいて異なる次数の構文カウントを計算するステップS104は、少なくとも1つの構文図における構文の重み、スロットの重み及びスロット値の重みに基づいて、隣接するN個のスロットのスロット値が固定されている場合の構文カウントを計算して、N次の構文カウントを取得するステップを含んでもよい。
ここで、スロットのスロット値が固定されているということは、スロットのスロット値が空ではなく、一意の値であることを意味する。
引き続き図2を例にして、「我想听」のスロット、及び「歌手」のスロットは隣接する2つのスロットであり、「我想听」のスロットのスロット値は「我想听」ということであり、「歌手」のスロットに対応するスロット値はAであり、他のスロット(図2における「我想听」のスロットと「歌手」のスロット以外のスロット)のスロット値がいずれも固定されていない場合、構文図における構文の重み、スロットの重み及びスロット値の重みに基づいて、「我想听」のスロットと「歌手」のスロットのスロット値が固定されている場合の2次の構文カウントを計算することができる。
これにより、当該方法は、少なくとも1つの構文図における構文の重み、スロットの重み及びスロット値の重みに基づいて、隣接するN個のスロットのスロット値が固定されている場合の構文カウントを計算して、N次の構文カウントを取得することができる。
上記のいずれかの実施例に基づいて、図6に示すように、少なくとも1つの構文図における構文の重み、スロットの重み及びスロット値の重みに基づいて、隣接するN個のスロットのスロット値が固定されている場合の構文カウントを計算して、N次の構文カウントを取得するステップは、ステップS601~S604を含んでもよい。
S601において、構文図における隣接するN個のスロットのスロット値に対応する重みの積を計算して、第1の積値を取得する。
S602において、第1の積値と構文図における隣接するN個のスロット以外の他のスロットの重みとの積を計算して、第2の積値を取得する。
S603において、第2の積値と構文図における構文の重みとの積を計算して、第3の積値を取得する。
S604において、異なる構文図に対応する第3の積値の合計値を計算して、N次の構文カウントを取得する。
引き続き図2、図3を例として、図2に示す構文の重みは200であり、「s」、「我想听」、「歌手」、「的」、「歌曲」、「/s」のスロットに対応する重みはそれぞれ1、1、30、1、3、1であり、「歌手」のスロットのスロット値A、Aに対応する重みはそれぞれ20、10であり、「歌曲」のスロットのスロット値B、Bに対応する重みはそれぞれ2、1であると仮定する。
図3に示す構文の重みは1000であり、「s」、「我想听」、「歌曲」、「/s」のスロットに対応する重みはそれぞれ1、1、3、1であり、「歌曲」のスロットのスロット値B、Bに対応する重みはそれぞれ2、1であると仮定する。
以下、3つのケースにおけるN次の構文カウントの計算プロセスについてそれぞれ説明する。
第1のケースにおいて、「s」のスロットのスロット値は、sであり、他のスロット(図2、3における「s」以外の他のスロット)のスロット値がいずれも固定されていない場合、「s」のスロットのスロット値が固定されている場合の1次の構文カウントPを計算することができ、Pの具体的な計算プロセスは以下のとおりである。
図2に示す構文図では、第1の積値P11は、「s」のスロットの重みである1となり、第2の積値P12=1*1*30*1*3*1=90となり、第3の積値P13=P12*200=90*200=18000となる。
図3に示す構文図では、第1の積値P11 は、「s」のスロットの重みである1となり、第2の積値P12 =1*1*3*1=3となり、第3の積値P13 =P12 *1000=3*1000=3000となる。
そのため、「s」のスロットのスロット値が固定されている場合の1次の構文カウントP=P13+P13 =18000+3000=21000となる。
第2のケースにおいて、「歌手」のスロットのスロット値がAであり、他のスロット(図2、3における「歌手」のスロット以外の他のスロット)のスロット値が固定されていない場合に、「歌手」のスロットのスロット値がAとして固定されている場合の1次の構文カウントPを計算することができ、Pの具体的な計算プロセスは以下のとおりである。
図2に示す構文図では、第1の積値P21は、Aスロット値の重みである20となり、第2の積値P22=20*1*1*1*3*1=60となり、第3の積値P23=P22*200=60*200=12000となる。
図3に示す構文図では、「歌手」というスロットが存在しないため、Aのスロット値も存在しないことで、図3に対応する第3の積値P23 =0となる。
そのため、「歌手」のスロットのスロット値がAとして固定されている場合の1次の構文カウントP=P23+P23 =12000+0=12000となる。
第3のケースにおいて、「我想听」のスロットのスロット値が「我想听」ということであり、「歌曲」のスロットのスロット値がBであり、他のスロット(図2、3における「我想听」のスロット及び「歌曲」のスロット以外のスロット)のスロット値がいずれも固定されていない場合、「我想听」、及び「歌曲」のスロットのスロット値が固定されている場合の2次の構文カウントPを計算することができ、Pの具体的な計算プロセスは以下のとおりである。
図2に示す構文図では、第1の積値P31=1*2=2となり、第2の積値P32=2*1*30*1*1=60となり、第3の積値P33=P32*200=60*200=12000となる。
図3に示す構文図では、第1の積値P31 =1*2=2となり、第2の積値P32 =2*1*1=2となり、第3の積値P33 =P32 *1000=2*1000=2000となる。
したがって、「我想听」、及び「歌曲」のスロットのスロット値が固定されている場合の2次の構文カウントP=P33+P33 =12000+2000=14000となる。
他のN次の構文カウントの計算プロセスは上記の実施例を参照することができ、ここでは説明を省略する。
これにより、当該方法は、各構文図における構文の重み、スロットの重み及びスロット値の重みに基づいて、各構文図に対応する第1の積値、第2の積値、第3の積値を順に計算し、次に異なる構文図に対応する第3の積値の合計値を計算してN次の構文カウントを取得することができる。
上記のいずれかの実施例に基づいて、構文カウントに基づいて、言語モデルのトレーニングを行うステップS105は、予め設定されたカウント閾値を超えた構文カウントに対してカウント低減処理を行い、カウント低減処理された構文カウントに基づいて、言語モデルのトレーニングを行うステップを含んでもよい。
なお、予め設定されたカウント閾値を超えた構文カウントのカウントが高すぎて、言語モデルのトレーニングに役立たないため、予め設定されたカウント閾値を超えた構文カウントに対してカウント低減処理を行い、カウント低減処理された構文カウントに基づいて言語モデルのトレーニングを行うことにより、言語モデルのトレーニング効果を向上させることができる。
ここで、カウント閾値は、実際の状況に応じて設定することができ、例えば30万として設定してもよい。
選択的に、予め設定されたカウント閾値を超えた構文カウントに対してカウント低減処理を行うステップは、平滑化アルゴリズムを使用して予め設定されたカウント閾値を超えた構文カウントに対してカウント低減処理を行うステップを含んでもよい。ここで、平滑化アルゴリズムは、加法平滑化アルゴリズム、グッド・チューリング推定法、Katz平滑化法などを含むが、これらに限定されず、ここではあまり多く限定しない。
上記いずれかの実施例に基づいて、複数の垂直カテゴリのサンプルテキストに基づいて、それぞれ言語モデルをトレーニングして、異なる垂直カテゴリでの言語モデルの認識性能を向上させることができる。ここで、垂直カテゴリは音楽、天候、ニュース、地図、スマートホーム、検索などを含むが、これらに限定されず、ここではあまり多く限定しない。
図7は、本願の第1の実施例に係る言語モデルのトレーニング装置のブロック図である。
図7に示すように、本願の実施例に係る言語モデルのトレーニング装置700は、セマンティック解析モジュール701、生成モジュール702、第2の取得モジュール703、計算モジュール704、及びトレーニングモジュール705を含む。
セマンティック解析モジュール701は、サンプルテキストに対応する構文及び前記構文におけるスロットに対応するスロット値を取得する。
生成モジュール702は、前記構文及び前記構文における前記スロットに対応するスロット値に基づいて、前記構文に対応する構文図を生成する。
第2の取得モジュール703は、前記サンプルテキストに基づいて、前記構文図における前記構文の重み、前記スロットの重み及び前記スロット値の重みを取得する。
計算モジュール704は、前記構文図における前記構文の重み、前記スロットの重み及び前記スロット値の重みに基づいて、異なる次数の構文カウントを計算する。
トレーニングモジュール705は、前記構文カウントに基づいて、言語モデルのトレーニングを行う。
本願の一実施例では、セマンティック解析モジュール701は自然言語理解セマンティック解析モジュールである。
本願の一実施例では、前記第2の取得モジュール703は、前記サンプルテキストを前記構文図に注入し、前記構文図におけるアクティブ化されたパスを記録するための注入ユニットと、前記構文図におけるアクティブ化されたパスに基づいて、前記構文図における前記構文の重み、前記スロットの重み及び前記スロット値の重みを取得するための取得ユニットと、を含む。
本願の一実施例では、前記生成モジュール702は、前記構文における前記スロットを順に有向に接続するための接続ユニットと、前記スロットに対応するスロット値に基づいて前記スロットを拡張し、前記構文に対応する構文図を取得するための拡張ユニットと、を含む。
本願の一実施例では、前記計算モジュール704はさらに、少なくとも1つの前記構文図における前記構文の重み、前記スロットの重み及び前記スロット値の重みに基づいて、隣接するN個の前記スロットのスロット値が固定されている場合の構文カウントを計算して、前記N次の構文カウントを取得する。
本願の一実施例では、前記計算モジュール704は、前記構文図における前記隣接するN個の前記スロットのスロット値に対応する重みの積を計算して、第1の積値を取得するための第1の計算ユニットと、前記第1の積値と前記構文図における前記隣接するN個の前記スロット以外の他のスロットの重みの積を計算して、第2の積値を取得するための第2の計算ユニットと、前記第2の積値と前記構文図における前記構文の重みとの積を計算して、第3の積値を取得するための第3の計算ユニットと、異なる構文図に対応する前記第3の積値の合計値を計算して、前記N次の構文カウントを取得するための第4の計算ユニットと、を含む。
本願の一実施例では、前記トレーニングモジュール705は、予め設定されたカウント閾値を超えた前記構文カウントに対してカウント低減処理を行うためのカウント低減ユニットと、カウント低減処理された前記構文カウントに基づいて言語モデルのトレーニングを行うためのトレーニングユニットと、を含む。
要約すると、本願の実施例に係る言語モデルのトレーニング装置によれば、構文図における構文の重み、スロットの重み及びスロット値の重みに基づいて、異なる次数の構文カウントを直接計算することができ、関連技術においてサンプルテキスト拡張に基づいてコーパスを取得し、続いてコーパスを統計して構文カウントを取得するという解決手段に比べて、コーパス拡張を必要とせず構文カウントを取得することができ、関連技術におけるコーパスの数が過剰であるという問題を解決し、構文カウントの計算効率がより高く、モデルのトレーニング中に消費されるストレージリソースと計算リソースを大幅に削減することができ、さらに、言語モデルのトレーニング時間を大幅に短縮することができ、言語モデルの性能がより優れている。
本願の実施例によれば、本願は、電子機器及び読み取り可能な記憶媒体をさらに提供する。
本願の実施例によれば、本願は、コンピュータプログラムを提供し、コンピュータプログラムは、コンピュータに本願によって提供される言語モデルのトレーニング方法を実行させる。
図8に示すように、本願の実施例に係る言語モデルのトレーニング方法の電子機器のブロック図である。電子機器は、例えば、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、パーソナルディジタルアシスタント、サーバ、ブレードサーバ、メインフレームコンピュータ及び他の適切なコンピュータなど、様々な形態のデジタルコンピュータを表すことを意図する。電子機器はさらに、例えば、スマート音声インタラクション機器、パーソナルデジタル処理、携帯電話、スマートフォン、ウェアラブルデバイス及び他の同様のコンピューティング装置など、様々な形態のモバイル装置を表すことができる。本明細書に示されるコンポーネント、それらの接続及び関係、並びにそれらの機能は、単なる例であり、本明細書に記載及び/又は請求される本願の実施を限定することを意図しない。
図8に示すように、当該電子機器は、1つ又は複数のプロセッサ801と、メモリ802と、高速インタフェース及び低速インタフェースを含む各コンポーネントを接続するためのインタフェースと、を含む。各コンポーネントは、異なるバスで相互に接続され、共通のマザーボードに取り付けられるか、又は必要に応じて他の方法で取り付けられてもよい。プロセッサ801は、電子機器内で実行される命令を処理することができ、当該命令は、外部入力/出力装置(例えば、インタフェースに結合された表示機器など)にGUIの図形情報を表示するためにメモリ内又はメモリに記憶されている命令を含む。他の実施形態では、必要に応じて、複数のプロセッサ及び/又は複数のバスを、複数のメモリと一緒に用いることができる。同様に、複数の電子機器を接続することができ、各機器は、一部の必要な操作(例えば、サーバアレイ、1グループのブレードサーバ、又はマルチプロセッサシステムとする)を提供する。図8では、1つのプロセッサ801を例とする。
メモリ802は、本願により提供される非一時的なコンピュータ読み取り可能な記憶媒体である。ここで、前記メモリには、少なくとも1つのプロセッサが本願により提供される言語モデルのトレーニング方法を実行するように、少なくとも1つのプロセッサによって実行可能な命令が記憶されている。本願の非一時的なコンピュータ読み取り可能な記憶媒体には、コンピュータに本願により提供される言語モデルのトレーニング方法を実行させるためのコンピュータ命令が記憶されている。
メモリ802は、非一時的なコンピュータ読み取り可能な記憶媒体として、本願の実施例における言語モデルのトレーニング方法に対応するプログラム命令/モジュール(例えば、図7に示すセマンティック解析モジュール701、生成モジュール702、第2の取得モジュール703、計算モジュール704及びトレーニングモジュール705)のような、非一時的なソフトウェアプログラム、非一時的なコンピュータ実行可能なプログラム及びモジュールを記憶する。プロセッサ801は、メモリ802に記憶されている非一時的なソフトウェアプログラム、命令及びモジュールを実行することによって、サーバの様々な機能アプリケーション及びデータ処理を実行し、すなわち上記の方法の実施例における言語モデルのトレーニング方法を実現する。
メモリ802は、オペレーティングシステム、少なくとも1つの機能に必要なアプリケーションプログラムを記憶可能なプログラム記憶領域と、言語モデルのトレーニング方法の電子機器の利用に応じて作成されたデータなどを記憶可能なデータ記憶領域とを含んでもよい。また、メモリ802は、高速ランダムアクセスメモリを含んでもよく、非一時的なメモリをさらに含んでもよく、例えば、少なくとも1つの磁気ディスクストレージデバイス、フラッシュメモリデバイス、又は他の非一時的なソリッドステートストレージデバイスが挙げられる。いくつかの実施例では、メモリ802は、プロセッサ801に対して遠隔に設定されたメモリを選択的に含んでもよく、これらの遠隔メモリは、ネットワークを介して言語モデルのトレーニング方法の電子機器に接続することができる。上記のネットワークの例は、インターネット、イントラネット、ローカルエリアネットワーク、モバイル通信ネットワーク、及びその組み合わせを含むが、これらに限定されない。
言語モデルのトレーニング方法の電子機器は、入力装置803と出力装置804とをさらに含んでもよい。プロセッサ801、メモリ802、入力装置803、及び出力装置804は、バス又は他の方式で接続することができ、図8では、バスで接続することを例とする。
入力装置803は、入力された数字又は文字情報を受信し、言語モデルのトレーニング方法の電子機器のユーザ設定及び機能制御に関するキー信号入力を生成することができ、例えば、タッチスクリーン、キーパッド、マウス、トラックパッド、タッチパッド、ポインティングスティック、1つ又は複数のマウスボタン、トラックボール、ジョイスティックなどの入力装置である。出力装置804は、表示機器、補助照明装置(例えば、LED)、及び触覚フィードバックデバイス(例えば、振動モータ)などを含んでもよい。当該表示機器は、液晶ディスプレイ(LCD)、発光ダイオード(LED)ディスプレイ、及びプラズマディスプレイを含んでもよいが、これらに限定されない。いくつかの実施形態で、ディスプレイデバイスは、タッチスクリーンであってもよい。
ここで説明したシステム及び技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、特定用途向けASIC(特定用途向け集積回路)、コンピュータハードウェア、ファームウェア、ソフトウェア、及び/又はそれらの組み合わせで実現することができる。これらの様々な実施形態は、1つ又は複数のコンピュータプログラムで実施され、当該1つ又は複数のコンピュータプログラムは、少なくとも1つのプログラマブルプロセッサを含むプログラム可能なシステムで実行及び/又は解釈することができ、当該プログラマブルプロセッサは、専用又は汎用のプログラマブルプロセッサであってもよく、ストレージシステム、少なくとも1つの入力装置、及び少なくとも1つの出力装置からデータ及び命令を受信し、データ及び命令を当該ストレージシステム、当該少なくとも1つの入力装置、及び当該少なくとも1つの出力装置に伝送することができる。
これらのコンピューティングプログラム(プログラム、ソフトウェア、ソフトウェアアプリケーション、又はコードとも呼ばれる)は、プログラマブルプロセッサの機械命令を含み、高度プロセス及び/又はオブジェクト指向プログラミング言語、及び/又はアセンブリ/機械言語でこれらのコンピューティングプログラムを実施することができる。本明細書に使用されるような、「機械読み取り可能な媒体」及び「コンピュータ読み取り可能な媒体」という用語は、機械命令及び/又はデータをプログラマブルプロセッサに提供するための任意のコンピュータプログラム製品、機器、及び/又は装置(例えば、磁気ディスク、光ディスク、メモリ、プログラマブルロジックデバイス(PLD))を指し、機械読み取り可能な信号である機械命令を受信する機械読み取り可能な媒体を含む。「機械読み取り可能な信号」という用語は、機械命令及び/又はデータをプログラマブルプロセッサに提供するための任意の信号を指す。
ユーザとのインタラクションを提供するために、ここで説明されるシステム及び技術をコンピュータ上で実施することができ、当該コンピュータは、ユーザに情報を表示するための表示装置(例えば、CRT(陰極線管)又はLCD(液晶ディスプレイ)モニタ)と、キーボード及びポインティング装置(例えば、マウス又はトラックボール)とを有し、ユーザは、当該キーボード及び当該ポインティング装置によって入力をコンピュータに提供することができる。他の種類の装置も、ユーザとのインタラクションを提供することができ、例えば、ユーザに提供されるフィードバックは、任意の形態のセンシングフィードバック(例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバック)であってもよく、任意の形態(音響入力、音声入力、又は触覚入力を含む)でユーザからの入力を受信することができる。
ここで説明されるシステム及び技術は、バックエンドコンポーネントを含むコンピューティングシステム(例えば、データサーバとする)、又はミドルウェアコンポーネントを含むコンピューティングシステム(例えば、アプリケーションサーバ)、又はフロントエンドコンポーネントを含むコンピューティングシステム(例えば、グラフィカルユーザインタフェース又はウェブブラウザを有するユーザコンピュータであり、ユーザは、当該グラフィカルユーザインタフェース又は当該ウェブブラウザによってここで説明されるシステム及び技術の実施形態とインタラクションを行う)、又はこのようなバックエンドコンポーネントと、ミドルウェアコンポーネントと、フロントエンドコンポーネントの任意の組み合わせを含むコンピューティングシステムで実施することができる。任意の形態又は媒体のデジタルデータ通信(例えば、通信ネットワーク)によってシステムのコンポーネントを相互に接続することができる。通信ネットワークの例は、ローカルエリアネットワーク(LAN)と、ワイドエリアネットワーク(WAN)と、インターネットと、を含む。
コンピュータシステムは、クライアント及びサーバを含んでもよい。クライアントとサーバは、一般に、互いに離れており、通常に通信ネットワークを介してインタラクションを行う。対応するコンピュータ上で実行され、且つ互いにクライアント-サーバの関係を有するコンピュータプログラムによって、クライアントとサーバとの関係が生成される。サーバはクラウドサーバであってもよく、クラウド計算サーバ又はクラウドホストとも呼ばれ、クラウド計算サーバシステムにおけるホスト製品であり、従来の物理ホストとVPSサービス(「Virtual Private Server」、又は「VPS」と略称する)における、管理の難易度が大きく、業務拡張性が弱いという欠点を解決する。
本願の実施例の技術的解決手段によれば、構文図における構文の重み、スロットの重み及びスロット値の重みに基づいて、異なる次数の構文カウントを直接計算することができ、関連技術においてサンプルテキスト拡張に基づいてコーパスを取得し、続いてコーパスを統計して構文カウントを取得するという解決手段に比べて、コーパス拡張を必要とせず構文カウントを取得することができ、関連技術におけるコーパスの数が過剰であるという問題を解決し、構文カウントの計算効率がより高く、モデルのトレーニング中に消費されるストレージリソースと計算リソースを大幅に削減することができ、さらに、言語モデルのトレーニング時間を大幅に短縮することができ、言語モデルの性能がより優れている。
以上に示される様々な形態のフローを使用して、ステップを並べ替え、追加、又は削除することが可能であることを理解すべきである。例えば、本願に記載されている各ステップは、並列に実行されてもよいし、順次実行されてもよいし、異なる順序で実行されてもよいが、本願に開示されている技術的解決手段が所望する結果を実現することができれば、本明細書ではこれに限定されない。
上記の具体的な実施形態は、本願の保護範囲を制限するものではない。当業者は、設計要件と他の要因に基づいて、様々な修正、組み合わせ、サブコンビネーション、及び代替を行うことができることを理解すべきである。本願の精神と原則内で行われる任意の修正、同等の置換、及び改善などは、いずれも本願の保護範囲内に含まれるべきである。

Claims (17)

  1. 言語モデルのトレーニング方法であって、
    セマンティック解析モジュールを使用して、サンプルテキストに対応する構文及び前記構文におけるスロットに対応するスロット値を取得するステップと、
    前記構文及び前記構文における前記スロットに対応するスロット値に基づいて、前記構文に対応する構文図を生成するステップと、
    前記サンプルテキストに基づいて、前記構文図における前記構文の重み、前記スロットの重み及び前記スロット値の重みを取得するステップと、
    前記構文図における前記構文の重み、前記スロットの重み及び前記スロット値の重みに基づいて、異なる次数の構文カウントを計算するステップと、
    前記構文カウントに基づいて、言語モデルのトレーニングを行うステップと、を含む、
    ことを特徴とする言語モデルのトレーニング方法。
  2. 前記セマンティック解析モジュールは、自然言語理解セマンティック解析モジュールである、
    ことを特徴とする請求項1に記載のトレーニング方法。
  3. 前記サンプルテキストに基づいて、前記構文図における前記構文の重み、前記スロットの重み及び前記スロット値の重みを取得するステップは、
    前記サンプルテキストを前記構文図に注入し、前記構文図におけるアクティブ化されたパスを記録するステップと、
    前記構文図におけるアクティブ化されたパスに基づいて、前記構文図における前記構文の重み、前記スロットの重み及び前記スロット値の重みを取得するステップと、を含む、
    ことを特徴とする請求項1に記載のトレーニング方法。
  4. 前記構文及び前記構文における前記スロットに対応するスロット値に基づいて、前記構文に対応する構文図を生成するステップは、
    前記構文における前記スロットを順に有向に接続するステップと、
    前記スロットに対応するスロット値に基づいて、前記スロットを拡張して、前記構文に対応する構文図を取得するステップと、を含む、
    ことを特徴とする請求項1に記載のトレーニング方法。
  5. 前記構文図における前記構文の重み、前記スロットの重み及び前記スロット値の重みに基づいて、異なる次数の構文カウントを計算するステップは、
    少なくとも1つの前記構文図における前記構文の重み、前記スロットの重み及び前記スロット値の重みに基づいて、隣接するN個の前記スロットのスロット値が固定されている場合の構文カウントを計算して、N次の構文カウントを取得するステップを含む、
    ことを特徴とする請求項1に記載のトレーニング方法。
  6. 前記少なくとも1つの前記構文図における前記構文の重み、前記スロットの重み及び前記スロット値の重みに基づいて、隣接するN個の前記スロットのスロット値が固定されている場合の構文カウントを計算して、N次の構文カウントを取得するステップは、
    前記構文図における前記隣接するN個の前記スロットのスロット値に対応する重みの積を計算して、第1の積値を取得するステップと、
    前記第1の積値と前記構文図における前記隣接するN個の前記スロット以外の他のスロットの重みとの積を計算して、第2の積値を取得するステップと、
    前記第2の積値と前記構文図における前記構文の重みとの積を計算して、第3の積値を取得するステップと、
    異なる構文図に対応する前記第3の積値の合計値を計算して、前記N次の構文カウントを取得するステップと、を含む、
    ことを特徴とする請求項5に記載のトレーニング方法。
  7. 前記構文カウントに基づいて、言語モデルのトレーニングを行うステップは、
    予め設定されたカウント閾値を超えた前記構文カウントに対してカウント低減処理を行うステップと、
    カウント低減処理された前記構文カウントに基づいて、言語モデルのトレーニングを行うステップと、を含む、
    ことを特徴とする請求項1に記載のトレーニング方法。
  8. 言語モデルのトレーニング装置であって、
    サンプルテキストに対応する構文及び前記構文におけるスロットに対応するスロット値を取得するためのセマンティック解析モジュールと、
    前記構文及び前記構文における前記スロットに対応するスロット値に基づいて、前記構文に対応する構文図を生成するための生成モジュールと、
    前記サンプルテキストに基づいて、前記構文図における前記構文の重み、前記スロットの重み及び前記スロット値の重みを取得するための第2の取得モジュールと、
    前記構文図における前記構文の重み、前記スロットの重み及び前記スロット値の重みに基づいて、異なる次数の構文カウントを計算するための計算モジュールと、
    前記構文カウントに基づいて、言語モデルのトレーニングを行うためのトレーニングモジュールと、を含む、
    ことを特徴とする言語モデルのトレーニング装置。
  9. 前記セマンティック解析モジュールは、自然言語理解セマンティック解析モジュールである、
    ことを特徴とする請求項8に記載のトレーニング装置。
  10. 前記第2の取得モジュールが、
    前記サンプルテキストを前記構文図に注入し、前記構文図におけるアクティブ化されたパスを記録するための注入ユニットと、
    前記構文図におけるアクティブ化されたパスに基づいて、前記構文図における前記構文の重み、前記スロットの重み及び前記スロット値の重みを取得するための取得ユニットと、を含む、
    ことを特徴とする請求項8に記載のトレーニング装置。
  11. 前記生成モジュールが、
    前記構文における前記スロットを順に有向に接続するための接続ユニットと、
    前記スロットに対応するスロット値に基づいて、前記スロットを拡張して、前記構文に対応する構文図を取得するための拡張ユニットと、を含む、
    ことを特徴とする請求項8に記載のトレーニング装置。
  12. 前記計算モジュールが、さらに、
    少なくとも1つの前記構文図における前記構文の重み、前記スロットの重み及び前記スロット値の重みに基づいて、隣接するN個の前記スロットのスロット値が固定されている場合の構文カウントを計算して、N次の構文カウントを取得する、
    ことを特徴とする請求項8に記載のトレーニング装置。
  13. 前記計算モジュールが、
    前記構文図における前記隣接するN個の前記スロットのスロット値に対応する重みの積を計算して、第1の積値を取得するための第1の計算ユニットと、
    前記第1の積値と前記構文図における前記隣接するN個の前記スロット以外の他のスロットの重みとの積を計算して、第2の積値を取得するための第2の計算ユニットと、
    前記第2の積値と前記構文図における前記構文の重みとの積を計算して、第3の積値を取得するための第3の計算ユニットと、
    異なる構文図に対応する前記第3の積値の合計値を計算して、前記N次の構文カウントを取得するための第4の計算ユニットと、を含む、
    ことを特徴とする請求項12に記載のトレーニング装置。
  14. 前記トレーニングモジュールが、
    予め設定されたカウント閾値を超えた前記構文カウントに対してカウント低減処理を行うためのカウント低減ユニットと、
    カウント低減処理された前記構文カウントに基づいて、言語モデルのトレーニングを行うためのトレーニングユニットと、を含む、
    ことを特徴とする請求項8に記載のトレーニング装置。
  15. 少なくとも1つのプロセッサと、
    前記少なくとも1つのプロセッサに通信可能に接続されるメモリと、を含み、
    前記メモリには、前記少なくとも1つのプロセッサによって実行される命令が記憶され、前記命令は、前記少なくとも1つのプロセッサが請求項1~7のいずれかに記載の言語モデルのトレーニング方法を実行できるように、前記少なくとも1つのプロセッサによって実行される、
    ことを特徴とする電子機器。
  16. コンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体であって、
    前記コンピュータ命令は、コンピュータに請求項1~7のいずれかに記載の言語モデルのトレーニング方法を実行させる、
    ことを特徴とする非一時的なコンピュータ読み取り可能な記憶媒体。
  17. コンピュータプログラムであって、
    前記コンピュータプログラムは、コンピュータに1~7のいずれかに記載の言語モデルのトレーニング方法を実行させる、
    ことを特徴とするコンピュータプログラム。
JP2021174059A 2020-10-27 2021-10-25 言語モデルのトレーニング方法、装置、及び電子機器 Active JP7190017B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202011165544.5A CN112466292B (zh) 2020-10-27 2020-10-27 语言模型的训练方法、装置和电子设备
CN202011165544.5 2020-10-27

Publications (2)

Publication Number Publication Date
JP2022006183A JP2022006183A (ja) 2022-01-12
JP7190017B2 true JP7190017B2 (ja) 2022-12-14

Family

ID=74835957

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021174059A Active JP7190017B2 (ja) 2020-10-27 2021-10-25 言語モデルのトレーニング方法、装置、及び電子機器

Country Status (4)

Country Link
US (1) US11900918B2 (ja)
JP (1) JP7190017B2 (ja)
KR (1) KR20210116366A (ja)
CN (1) CN112466292B (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20240070404A1 (en) * 2022-08-26 2024-02-29 International Business Machines Corporation Reinforced generation: reinforcement learning for text and knowledge graph bi-directional generation using pretrained language models

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002268676A (ja) 2001-03-07 2002-09-20 Atr Onsei Gengo Tsushin Kenkyusho:Kk 言語モデル生成装置及び音声認識装置
JP2004334193A (ja) 2003-05-01 2004-11-25 Microsoft Corp 音声認識および自然言語理解のための複合統計/ルール・ベース文法モデルを有するシステム
WO2008118905A2 (en) 2007-03-26 2008-10-02 Google Inc. Large language models in machine translation

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU5451800A (en) * 1999-05-28 2000-12-18 Sehda, Inc. Phrase-based dialogue modeling with particular application to creating recognition grammars for voice-controlled user interfaces
DE10014337A1 (de) * 2000-03-24 2001-09-27 Philips Corp Intellectual Pty Verfahren zum Erzeugen eines Sprachmodells und eines akustischen Modells für ein Spracherkennungssystem
EP1320086A1 (en) 2001-12-13 2003-06-18 Sony International (Europe) GmbH Method for generating and/or adapting language models
US7792846B1 (en) * 2007-07-27 2010-09-07 Sonicwall, Inc. Training procedure for N-gram-based statistical content classification
JP5766152B2 (ja) * 2012-06-18 2015-08-19 日本電信電話株式会社 言語モデル生成装置、その方法及びプログラム
US9330659B2 (en) * 2013-02-25 2016-05-03 Microsoft Technology Licensing, Llc Facilitating development of a spoken natural language interface
US9886950B2 (en) * 2013-09-08 2018-02-06 Intel Corporation Automatic generation of domain models for virtual personal assistants
US9336772B1 (en) * 2014-03-06 2016-05-10 Amazon Technologies, Inc. Predictive natural language processing models
US9286892B2 (en) * 2014-04-01 2016-03-15 Google Inc. Language modeling in speech recognition
US9997157B2 (en) * 2014-05-16 2018-06-12 Microsoft Technology Licensing, Llc Knowledge source personalization to improve language models
US20160371250A1 (en) * 2015-06-16 2016-12-22 Microsoft Technology Licensing, Llc Text suggestion using a predictive grammar model
CN105161095B (zh) * 2015-07-29 2017-03-22 百度在线网络技术(北京)有限公司 语音识别语法树的构图方法及装置
US20170193291A1 (en) * 2015-12-30 2017-07-06 Ryan Anthony Lucchese System and Methods for Determining Language Classification of Text Content in Documents
RU2628431C1 (ru) * 2016-04-12 2017-08-16 Общество с ограниченной ответственностью "Аби Продакшн" Подбор параметров текстового классификатора на основе семантических признаков
RU2628436C1 (ru) * 2016-04-12 2017-08-16 Общество с ограниченной ответственностью "Аби Продакшн" Классификация текстов на естественном языке на основе семантических признаков
US9911413B1 (en) * 2016-12-28 2018-03-06 Amazon Technologies, Inc. Neural latent variable model for spoken language understanding
US10170107B1 (en) * 2016-12-29 2019-01-01 Amazon Technologies, Inc. Extendable label recognition of linguistic input
CN111611793B (zh) * 2019-02-22 2023-06-13 北京猎户星空科技有限公司 数据处理方法、装置、设备及存储介质
CN111475658B (zh) * 2020-06-12 2020-12-25 北京百度网讯科技有限公司 知识表示学习方法、装置、设备以及存储介质
CN111680129B (zh) * 2020-06-16 2022-07-12 思必驰科技股份有限公司 语义理解系统的训练方法及系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002268676A (ja) 2001-03-07 2002-09-20 Atr Onsei Gengo Tsushin Kenkyusho:Kk 言語モデル生成装置及び音声認識装置
JP2004334193A (ja) 2003-05-01 2004-11-25 Microsoft Corp 音声認識および自然言語理解のための複合統計/ルール・ベース文法モデルを有するシステム
WO2008118905A2 (en) 2007-03-26 2008-10-02 Google Inc. Large language models in machine translation

Also Published As

Publication number Publication date
US20220036880A1 (en) 2022-02-03
US11900918B2 (en) 2024-02-13
JP2022006183A (ja) 2022-01-12
CN112466292A (zh) 2021-03-09
KR20210116366A (ko) 2021-09-27
CN112466292B (zh) 2023-08-04

Similar Documents

Publication Publication Date Title
KR102484617B1 (ko) 이종 그래프 노드를 표현하는 모델 생성 방법, 장치, 전자 기기, 저장 매체 및 프로그램
JP7194150B2 (ja) ドキュメントのベクトル化表現方法、ドキュメントのベクトル化表現装置及びコンピュータ機器
JP7283009B2 (ja) 対話理解モデルの訓練方法、装置、デバイス及び記憶媒体
JP7264866B2 (ja) イベント関係の生成方法、装置、電子機器及び記憶媒体
JP7269913B2 (ja) ナレッジグラフ構築方法、装置、電子機器、記憶媒体およびコンピュータプログラム
JP2021157802A (ja) テキスト生成モデルのトレーニング方法、装置及び電子機器
KR102521765B1 (ko) 인과 관계의 판별 방법, 장치, 전자 기기 및 저장 매체
JP7309798B2 (ja) 対話意図の認識方法及び装置、電子機器並びに記憶媒体
JP7106802B2 (ja) リソースソート方法、ソートモデルをトレーニングする方法及び対応する装置
JP2021120863A (ja) 情報を生成するための方法及び装置、電子機器、記憶媒体並びにコンピュータプログラム
US20220092252A1 (en) Method for generating summary, electronic device and storage medium thereof
KR102565673B1 (ko) 시멘틱 표현 모델의 생성 방법, 장치, 전자 기기 및 저장 매체
JP7235817B2 (ja) 機械翻訳モデルのトレーニング方法、装置及び電子機器
JP7395553B2 (ja) 文章翻訳方法、装置、電子機器及び記憶媒体
JP2021128327A (ja) 口形特徴予測方法、装置及び電子機器
KR102682781B1 (ko) 대화 생성 방법, 장치, 전자 기기 및 기록 매체
KR102561951B1 (ko) 모델링 매개 변수의 설정 방법, 장치, 전자 기기 및 기록 매체
KR20210139152A (ko) 의미적 유사성 모델의 훈련 방법, 장치, 전자 기기 및 기록 매체
JP2021192283A (ja) 情報照会方法、装置及び電子機器
JP7190017B2 (ja) 言語モデルのトレーニング方法、装置、及び電子機器
KR20220061060A (ko) 데이터 처리 모델의 트레이닝 방법, 장치, 전자 기기 및 저장 매체
JP7212714B2 (ja) 関係ネットワーク生成方法、装置、電子設備、記憶媒体、及びプログラム
JP7146986B2 (ja) 情報抽出方法、情報抽出装置及び電子機器
JP2022020062A (ja) 特徴情報のマイニング方法、装置及び電子機器
CN103136190B (zh) Cjk姓名检测

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20211025

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220823

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20221114

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20221129

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20221202

R150 Certificate of patent or registration of utility model

Ref document number: 7190017

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150