JP2023093349A - Information processing device and information processing method - Google Patents
Information processing device and information processing method Download PDFInfo
- Publication number
- JP2023093349A JP2023093349A JP2022194980A JP2022194980A JP2023093349A JP 2023093349 A JP2023093349 A JP 2023093349A JP 2022194980 A JP2022194980 A JP 2022194980A JP 2022194980 A JP2022194980 A JP 2022194980A JP 2023093349 A JP2023093349 A JP 2023093349A
- Authority
- JP
- Japan
- Prior art keywords
- text
- texts
- candidate
- information processing
- similarity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000010365 information processing Effects 0.000 title claims abstract description 117
- 238000003672 processing method Methods 0.000 title claims abstract description 37
- 238000004364 calculation method Methods 0.000 claims abstract description 36
- 238000012545 processing Methods 0.000 claims abstract description 32
- 238000000034 method Methods 0.000 claims description 42
- 238000012549 training Methods 0.000 claims description 30
- 239000011159 matrix material Substances 0.000 claims description 16
- 238000013519 translation Methods 0.000 claims description 14
- 238000010586 diagram Methods 0.000 description 12
- 239000011521 glass Substances 0.000 description 6
- 238000004590 computer program Methods 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 239000004065 semiconductor Substances 0.000 description 3
- 238000012935 Averaging Methods 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000000712 assembly Effects 0.000 description 1
- 238000000429 assembly Methods 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 238000011524 similarity measure Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/58—Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
Abstract
Description
本発明は、情報処理の分野に関し、特に、情報処理装置及び情報処理方法に関する。 The present invention relates to the field of information processing, and more particularly to an information processing apparatus and information processing method.
テキストが情報処理の分野で多くのアプリケーションにおいて使用される。今のところ、テキストを処理する技術が幾つか存在する。 Text is used in many applications in the field of information processing. There are currently several techniques for processing text.
本発明の目的は、テキストを処理するための情報処理装置及び情報処理方法を提供することにある。 An object of the present invention is to provide an information processing apparatus and an information processing method for processing text.
本発明の一側面によれば、情報処理装置が提供され、それは、
一つ又は複数の所定の第一テキストのうちの各々について、複数のテキスト生成モデルを用いて該第一テキストに対応する複数の第二テキストを生成するように構成される第二テキスト生成ユニット;
前記複数の第二テキストと、対応する第一テキストとの間の語義マッチ度に基づいて、前記複数のテキスト生成モデルのうちから、第一所定数のテキスト生成モデルを候補モデルとして選択するように構成される候補モデル選択ユニット;
前記一つ又は複数の所定の第一テキストのうちの各々について、前記候補モデルを用いて生成された、該第一テキストに対応する複数の第二テキストの互いの間のテキスト類似度を計算し、そして、第二テキストの互いの間のテキスト類似度に基づいて、前記候補モデルの互いの間のモデル類似度を計算するように構成される類似度計算ユニット;
前記候補モデルのうちから、互いの間のモデル類似度が最も低い第二所定数の候補モデルを目標モデルとして選択するように構成される目標モデル選択ユニット;及び
前記目標モデルを用いて、処理待ちテキストに対応する第二所定数の第四テキストを、後続の処理のために生成するように構成される第四テキスト生成ユニットを含む。
According to one aspect of the present invention, an information processing device is provided, which comprises:
a second text generation unit configured to, for each of one or more predetermined first texts, generate a plurality of second texts corresponding to the first text using a plurality of text generation models;
selecting a first predetermined number of text generation models from among the plurality of text generation models as candidate models based on the degree of semantic matching between the plurality of second texts and the corresponding first text; a composed candidate model selection unit;
For each of the one or more predetermined first texts, calculate text similarity between each of a plurality of second texts corresponding to the first text generated using the candidate model. and a similarity computation unit configured to compute model similarities between said candidate models based on text similarities between each other of second texts;
a target model selection unit configured to select, as target models, from among said candidate models a second predetermined number of candidate models having the lowest model similarity between each other; and, using said target models, pending processing. A fourth text generation unit configured to generate a second predetermined number of fourth texts corresponding to the text for subsequent processing.
本発明のもう一つの側面によれば、情報処理装置が提供され、それは、
テキスト生成モデルを用いて、処理待ちテキストに対応する複数の第五テキストを生成するように構成される第五テキスト生成ユニット;
前記複数の第五テキストのうちから、前記処理待ちテキストとの語義マッチ度が所定マッチ度以上である第五テキストを候補第五テキストとして選択するように構成される候補テキスト選択ユニット;
各候補第五テキストについて、該候補第五テキストと、他の候補第五テキストのうちの各々との間のテキスト類似度を計算するように構成されるテキスト類似度計算ユニット;及び
前記候補第五テキストのうちから、互いの間のテキスト類似度が最も低い第四所定数の候補第五テキストを、後続の処理のために、目標テキストとして選択するように構成される目標テキスト選択ユニットを含む。
According to another aspect of the present invention, an information processing device is provided, which comprises:
a fifth text generation unit configured to generate a plurality of fifth texts corresponding to the pending text using the text generation model;
a candidate text selection unit configured to select, from among the plurality of fifth texts, a fifth text having a semantic matching degree with the awaiting text equal to or greater than a predetermined matching degree as a candidate fifth text;
a text similarity computation unit configured to compute, for each candidate fifth text, a text similarity between said candidate fifth text and each of the other candidate fifth texts; and said candidate fifth text. a target text selection unit configured to select, from among the texts, a fourth predetermined number of candidate fifth texts having the lowest text similarity between each other as target texts for subsequent processing;
本発明のもう一つの側面によれば、情報処理方法が提供され、それは、
一つ又は複数の所定の第一テキストのうちの各々について、複数のテキスト生成モデルを用いて、該第一テキストに対応する複数の第二テキストを生成し;
前記複数の第二テキストと、対応する第一テキストとの間の語義マッチ度に基づいて、前記複数のテキスト生成モデルのうちから、第一所定数のテキスト生成モデルを候補モデルとして選択し;
前記一つ又は複数の所定の第一テキストのうちの各々について、前記候補モデルを用いて生成された、該第一テキストに対応する複数の第二テキストの互いの間のテキスト類似度を計算し、そして、第二テキストの互いの間のテキスト類似度に基づいて、前記候補モデルの互いの間のモデル類似度を計算し;
前記候補モデルのうちから、互いの間のモデル類似度が最も低い第二所定数の候補モデルを目標モデルとして選択し;及び
前記目標モデルを用いて、処理待ちテキストに対応する第二所定数の第四テキストを、後続の処理のために生成することを含む。
According to another aspect of the present invention, an information processing method is provided, comprising:
for each of one or more predetermined first texts, using a plurality of text generation models to generate a plurality of second texts corresponding to the first text;
selecting a first predetermined number of text generation models from among the plurality of text generation models as candidate models based on the degree of semantic match between the plurality of second texts and the corresponding first text;
For each of the one or more predetermined first texts, calculate text similarity between each of a plurality of second texts corresponding to the first text generated using the candidate model. and calculating the model similarity between the candidate models based on the text similarity between the second texts;
selecting a second predetermined number of candidate models having the lowest model similarity between each other as target models from the candidate models; and using the target models, a second predetermined number corresponding to pending text. Generating a fourth text for subsequent processing.
本発明の他の側面によれば、本発明による上述の方法を実現するためのコンピュータプログラムコード及びコンピュータプログラムプロダクト、並びに本発明による上述の方法を実現するためのコンピュータプログラムコードを記憶しているコンピュータ可読記憶媒体がさらに提供される。 According to other aspects of the invention, a computer program code and a computer program product for implementing the above method according to the invention and a computer storing the computer program code for implementing the above method according to the invention. A readable storage medium is further provided.
以下、添付した図面を参照しながら、本発明を実施するための好適な実施例を詳細に説明する。なお、これらの実施例は例示に過ぎず、本発明を限定するものではない。 Preferred embodiments for carrying out the present invention will now be described in detail with reference to the accompanying drawings. It should be noted that these examples are merely illustrative and do not limit the present invention.
まず、図1を参照しながら本発明の第一実施例に係る情報処理装置100の実現例を説明する。図1は、本発明の第一実施例における情報処理装置100の機能構成例のブロック図である。
First, an implementation example of an
図1に示すように、本発明の第一実施例による情報処理装置100は第二テキスト生成ユニット102、候補モデル選択ユニット104、類似度計算ユニット106、目標モデル選択ユニット108及び第四テキスト生成ユニット110を含んでも良い。
As shown in FIG. 1, the
第二テキスト生成ユニット102は、一つ又は複数の所定の第一テキストのうちの各々について、複数のテキスト生成モデルを用いて、該第一テキストに対応する複数の第二テキストを生成するように構成されても良い。例えば、各テキスト生成モデルは単独のテキスト生成モデルであっても良い。また、例えば、上述の複数のテキスト生成モデルはそれぞれ、同一のテキスト生成モデルにおける異なるサブモジュールに対応しても良い。例えば、同一の第一テキストについて生成された複数の第二テキストのうちの各々は同じ語種(言語の種類)に属しても良い。
A second
候補モデル選択ユニット104は、第二テキスト生成ユニット102が生成した上述の複数の第二テキストと、対応する第一テキストとの間の語義マッチ度に基づいて、上述の複数のテキスト生成モデルのうちから、第一所定数のテキスト生成モデルを候補モデルとして選択するように構成されても良い。例えば、実際のニーズに応じて第一所定数を設定しても良い。例えば、Sentence-BERTの既存モデルを使用して、各第二テキストと、対応する第一テキストとの間の語義マッチ度を決定しても良い。
Candidate
一例として、候補モデル選択ユニット104は、生成された第二テキストと、対応する第一テキストとの間の語義マッチ度が比較的高いテキスト生成モデルを候補モデルとして選択しても良い。
As an example, the candidate
例えば、候補モデル選択ユニット104は各テキスト生成モデルについて、該テキスト生成モデルを用いて生成された各第二テキストと、対応する第一テキストとの間の語義マッチ度の平均値を計算し、そして、上述の複数のテキスト生成モデルのうちの、対応する語義マッチ度の平均値が最も高い第一所定数のテキスト生成モデルを候補モデルとして選択しても良い。
For example, the candidate
類似度計算ユニット106は、上述の一つ又は複数の所定の第一テキストのうちの各々について、候補モデル選択ユニット104を用いて選択された候補モデルによって生成された、該第一テキストに対応する複数の第二テキストの互いの間のテキスト類似度を計算し、そして、第二テキストの互いの間のテキスト類似度に基づいて、候補モデルの互いの間のモデル類似度を計算するように構成されても良い。
目標モデル選択ユニット108は、候補モデルのうちから、互いの間のモデル類似度が最も低い第二所定数の候補モデルを目標モデルとして選択するように構成されても良い。例えば、実際のニーズに基づいて第二所定数を設定しても良い。
The target
第四テキスト生成ユニット110は、目標モデルを利用して、処理待ちテキストに対応する第二所定数の第四テキストを、後続の処理のために生成するように構成されても良い。複数の処理待ちテキストが存在する場合、第四テキスト生成ユニット110は各処理待ちテキストについて、該処理待ちテキストに対応する第二所定数の第四テキストを生成できる。例えば、同一の処理待ちテキストについて生成された複数の第四テキストのうちの各々は同じ語種に属し得る。
The fourth
上述のように、本発明の第一実施例に係る情報処理装置100は、第一テキストと、複数のテキスト生成モデルを用いて生成された第二テキストとの間の語義マッチ度、及び、第二テキストの間のテキスト類似度を考慮して、複数のテキスト生成モデルのうちから目標モデルを選択できる。よって、目標モデルを利用することで、処理待ちテキストと適切な語義マッチ度を有する第四テキスト、例えば、処理待ちテキストの意味に比較的近い第四テキストを生成できる。例えば、処理待ちテキストの意味に比較的近い第四テキストは高品質の第四テキストと称されても良い。また、第四テキストの間のテキスト類似度が比較的低くなっても良く、これにより、多様性が比較的高くなる。言い換えれば、情報処理装置100を使用することで、高品質及び高多様性を具備する第四テキストを生成できる。
As described above, the
また、上述のように目標モデルを選択し、かつ目標モデルを利用することで第四テキストを生成することによって、情報処理装置100は語義マッチの不正確によるノイズを削減できる。ここで、“ノイズ”とは、処理待ちテキストの意味にあまり近くない第四テキストを指す。
Further, by selecting the target model as described above and generating the fourth text by using the target model, the
一例として、処理待ちテキスト及び第一テキストは同じ語種、例えば、中国語、英語、日本語などに属しても良い、これに限定されない。 For example, the text to be processed and the first text may belong to the same language, such as Chinese, English, Japanese, etc., but not limited to this.
もう1つの例として、処理待ちテキスト及び第一テキストは異なる語種に属しても良い。このような場合、例えば、第四テキスト生成ユニット110は先に、処理待ちテキストを第一テキストと同じ語種に変換し、次に、目標モデルを用いて第二所定数の第四テキストを生成しても良い。
As another example, the pending text and the first text may belong to different word types. In such a case, for example, the fourth
例えば、第二テキスト及び第四テキストは同じ語種、例えば、中国語、英語、日本語などに属しても良いが、これに限られない。 For example, the second text and the fourth text may belong to the same word class, such as Chinese, English, Japanese, etc., but is not limited to this.
一例として、第一テキスト、第二テキスト及び第四テキストは同じ語種に属し得る。このような場合、例えば、第二テキスト生成ユニット102はバックトランスレーション(逆翻訳)方法を用いて第二テキストを生成できる。例えば、第二テキスト生成ユニット102は第一テキストを、第一テキストの語種(以下、“第一語種”と称されても良い)とは異なる語種(以下、“第二語種”と称されても良い)のテキストに変換し、その後、変換後のテキストを第一語種に変換して第二テキストを取得できる。例えば、図2はバックトランスレーション方法を用いて第二テキストを生成する一例を示しており、そのうち、第一語種は英語、第二語種は中国語である。図2に示すように、第二テキスト生成ユニット102は英語の第一テキスト“The weather is good”を中国語のテキスト“好天気”に変換し、その後、中国語のテキスト“好天気”を英語の第二テキスト“Good weather”に変換できる。
As an example, the first text, the second text and the fourth text may belong to the same word type. In such a case, for example, the second
図2には、第二テキスト生成ユニット102が一つの第二テキストを生成する例が示されているが、第二テキスト生成ユニット102は、実際のニーズに応じて、第一テキストを複数の異なる第二語種(例えば、日本語、ドイツ語、スペイン語など)のテキストに変換し、その後、変換後のテキストを第一語種に変換して複数の第二テキストを得ても良い。
Although FIG. 2 shows an example in which the second
また、例えば、第四テキスト生成ユニット110はバックトランスレーション方法を用いて第四テキストを生成しても良い。例えば、第四テキスト生成ユニット110は上述の第二テキスト生成ユニット102の方法と類似した方法を用いて、一つ又は複数の第四テキストを生成しても良い。
Also, for example, the fourth
例えば、各テキスト生成モデルは単独のテキスト翻訳モデルであっても良く、例えば、一つのテキスト生成モデルは、第一語種のテキストと、一つの第二語種のテキストとの間の変換のためのテキスト翻訳モデルに対応しても良い。 For example, each text generation model may be a single text translation model, e.g., one text generation model is a text generation model for conversion between a first language text and a second language text. It may correspond to a translation model.
一例として、類似度計算ユニット106は次のような方式で任意の二つの第二テキストの間のテキスト類似度を計算でき、即ち、この二つの第二テキストをそれぞれワード及び/又はフレーズの集合に分割し、得られた集合の間の共通集合及び合併集合を取得し、そして、取得された共通集合に含まれるワード及びフレーズの数(即ち、ワードの数とフレーズの数との和)と、取得された合併集合に含まれるワード及びフレーズの数(即ち、ワードの数とフレーズの数との和)との比を、前記任意の二つの第二テキストの間のテキスト類似度とすることができる。
As an example, the
なお、ここで使用される“ワード”は一つのワード(単語)、例えば、一つの英語のワード、一つの中国語の漢字、一つの日本語の単語などを表しても良い。また、ここで使用される“フレーズ”は二つ又は複数のワードの組み合わせを表しても良い。 It should be noted that "word" as used herein may represent a single word, such as a single English word, a single Chinese character, a single Japanese word, and the like. Also, as used herein, a "phrase" may refer to a combination of two or more words.
以下、第二テキストが英語のテキストである例に基づいて、上述のテキスト類似度の計算方法についてさらに説明する。例えば、仮に、第二テキスト生成ユニット102により生成される第二テキストが第一英語フレーズ“a man was standing in the bathroom holding glasses”及び第二英語フレーズ“a person is standing in the bathroom holding a glass”を含むとする。類似度計算ユニット106は第一英語フレーズを第一ワード集合{a,man,was,standing,in,the,bathroom,holding,glasses}のように分割し、第二英語フレーズを第二ワード集合{a,person,is,standing,in,the,bathroom,holding,a,glass}のように分割できる。第一ワード集合と第二ワード集合との共通集合は{a,man,standing,in,the,bathroom,holding}であり、7つのワードを含み、第一ワード集合と第二ワード集合との合併集合は{a,man,was,is,standing,in,the,bathroom,holding,glasses,glass}であり、11個のワードを含む。類似度計算ユニット106は共通集合のワード数(即ち、7)と合併集合のワード数(即ち、11)との比(即ち、7/11)を、第一英語フレーズと第二英語フレーズとの間のテキスト類似度として使用できる。
The above text similarity calculation method will be further described below based on an example where the second text is an English text. For example, if the second text generated by the second
例えば、第二テキストが英語テキストであり、かつ大文字及び小文字を含む場合、類似度計算ユニット106は第二テキストを大文字又は小文字に変換し、その後、第二テキストを分割でき、もちろん、類似度計算ユニット106は第二テキストを分割した後に、分割後のワードを大文字又は小文字に変換しても良い。当業者が理解できるように、英語テキストについてのこのような字母(letter)の変換は同様に他の語種のテキスト、例えば、ドイツ語テキスト、スペイン語テキスト、フランス語テキストなどにも適用できる。
For example, if the second text is English text and contains uppercase and lowercase letters, the
一例として、類似度計算ユニット106は次のような方式で任意の二つの候補モデルの間のモデル類似度を計算でき、即ち、一つ又は複数の所定の第一テキストのうちの各々について、上述の任意の二つの候補モデルによって得られた、該第一テキストに対応する第二テキストの間のテキスト類似度を取得し、そして、上述の一つ又は複数の所定の第一テキストに対応するテキスト類似度の平均値を、上述の任意の二つの候補モデルの間のモデル類似度として計算する。例えば、仮に、一つ又は複数の所定の第一テキストがtext1,text2,……,textm(そのうち、mは0よりも大きい自然数であり、それは第一テキストの数を示す)を含み、候補モデルAを用いて取得されたtext1の第二テキストと、候補モデルBを用いて取得されたtext1の第二テキストとの間のテキスト類似度がs1であり、候補モデルAを用いて取得されたtext2の第二テキストと、候補モデルBを用いて取得されたtext2の第二テキストとの間のテキスト類似度がs2であり、候補モデルAを用いて取得されたtextmの第二テキストと、候補モデルBを用いて取得されたtextmの第二テキストとの間のテキスト類似度がsmであるとする。このような場合、類似度計算ユニット106は、text1,text2,……,textmに対応するテキスト類似度s1,s2,……,smの平均値を、候補モデルAと候補モデルBとの間のモデル類似度とすることができる。もちろん、類似度計算ユニット106は、テキスト類似度s1,s2,……、smに基づいて他の方式で候補モデルAと候補モデルBとの間のモデル類似度を計算しても良い。
As an example, the
一例として、目標モデル選択ユニット108は行列式ポイントプロセス(Determinantal Point Process(例えば、Chen L, Zhang G,Zhou E. Fast greedy map inference for determinantal point process to improve recommendation diversity[J]. Advances in Neural Information Processing Systems,2018,31参照))を用いて、候補モデルのうちの、互いの間のモデル類似度が最も低い第二所定数の候補モデルを目標モデルとして選択することができる。例えば、目標モデル選択ユニット108は、候補モデルの互いの間のモデル類似度に基づいて、N*N次元マトリックスSSを構築でき、該N*N次元マトリックスSSにおける各要素は、対応する候補モデルの間のモデル類似度を示し、例えば、SS[i,j]は第i候補モデルと第j候補モデルとの間の類似度を表す。そのうち、Nは0よりも大きい自然数であり、それは候補モデルの数(即ち、第一所定数)を示し、i及びjは0よりも大きくかつN以下の自然数である。その後、目標モデル選択ユニット108は、行列式ポイントプロセスを用いて、N*N次元マトリックスSSのM*M次元最大行列式サブマトリックスを求めることでき、そのうち、M*M次元最大行列式サブマトリックスは、候補モデルのうちの、互いの間のモデル類似度が最も低い第二所定数の候補モデルに対応する。ここで、Mは0よりも大きくかつNより小さい自然数であり、それは第二所定数を表す。
As an example, the target
以下、図3を参照して本発明の第二実施例における情報処理装置300を説明する。図3は本発明の第二実施例に係る情報処理装置300の機能構成例のブロック図である。
The
図3に示すように、本発明の第二実施例による情報処理装置300は第二テキスト生成ユニット302、候補モデル選択ユニット304、類似度計算ユニット306、目標モデル選択ユニット308、第四テキスト生成ユニット310及びビデオタイミング位置決めユニット(ビデオ位置決めユニットともいう)312を含んでも良い。なお、第二テキスト生成ユニット302、候補モデル選択ユニット304、類似度計算ユニット306、目標モデル選択ユニット308及び第四テキスト生成ユニット310は図1及び図2をもとに説明した情報処理装置100に含まれる第二テキスト生成ユニット102、候補モデル選択ユニット104、類似度計算ユニット106、目標モデル選択ユニット108及び第四テキスト生成ユニット110と類似しているため、ここではその詳しい説明を省略する。
As shown in FIG. 3, the
例えば、処理待ちテキストはユーザ入力のテキスト、又は、ユーザ入力の語音又は画像を変換することで取得されたテキストであっても良く、例えば、処理待ちテキストは、ユーザが所定のビデオから識別したい対象、イベントなどを指示できる。ビデオタイミング位置決めユニット312は処理待ちテキスト、及び、第四テキスト生成ユニット310により生成された第二所定数の第四テキストに基づいて、所定のビデオから処理待ちテキストに対応するフレーム(以下、“目標フレーム”と称されても良い)の位置を識別できる。ビデオタイミング位置決めユニット312は強化されたテキスト(即ち、処理待ちテキスト及び第四テキスト)を利用して所定のビデオに対して識別を行うことができるため、識別精度を向上させることができる。
For example, the pending text may be user-inputted text, or text obtained by converting user-inputted speech sounds or images, for example, the pending text may be an object that the user wishes to identify from a given video. , events, etc. Based on the pending text and the second predetermined number of fourth texts generated by the fourth text generating unit 310, the video
例えば、ビデオタイミング位置決めユニット312は訓練済みのマルチモーダル(multimodal)モデルを使用して、所定のビデオから処理待ちテキストに対応するフレームの位置を識別できる。例えば、ビデオタイミング位置決めユニット312は処理待ちテキスト及び第四テキストのうちの各々について、訓練済みのマルチモーダルモデルを利用して、所定のビデオにおける各フレームと、該テキストとの間の類似度を計算することで、M+1個の類似度シーケンスを取得し、そして、取得されたM+1個の類似度シーケンスに基づいて、所定のビデオにおける処理待ちテキストに対応するフレームの位置を特定できる。ここで、Mは0よりも大きい自然数であり、それは第四テキストの数を表す。例えば、ビデオタイミング位置決めユニット312は、取得されたM+1個の類似度シーケンスに対して平均を求めることで平均類似度シーケンスを取得し、そして、平均類似度シーケンスに基づいて所定のビデオにおける処理待ちテキストに対応するフレームの位置を認識できる。また、例えば、ビデオタイミング位置決めユニット312は、取得されたM+1個の類似度シーケンスのピーク値の中値を確定し、そして、中値に対応する類似度シーケンス(以下、“中値類似度シーケンス”とも称される)に基づいて、所定のビデオにおける処理待ちテキストに対応するフレームの位置を識別できる。
For example, video
図4は、Charades-STAのデータセットの場合、それぞれ、処理待ちテキストについての類似度シーケンス、ビデオタイミング位置決めユニット312が取得した平均類似度シーケンス、ビデオタイミング位置決めユニット312が取得した中値類似度シーケンス、及び手動平均類似度シーケンスを利用して、目標フレーム識別を行った結果の例を示している。そのうち、手動平均類似度シーケンスは、手動で選択されたM(図4に示す例では、M=10である)個のテキスト生成モデルによって生成された、処理待ちテキストに対応するM個のテキストと、所定のビデオとの類似度シーケンス、及び、処理待ちテキストについての類似度シーケンスに対して平均を求めることで得られた平均類似度シーケンスを表す。
FIG. 4 shows the similarity sequence for the pending text, the average similarity sequence obtained by the video
図4では、IoU0.5 R@1は、最適の識別結果と真値とのIoU(Intersection over Union)が0.5よりも大きい場合、識別結果が正確な場合のリコール率を確定することを表す。図4に示すように、ビデオタイミング位置決めユニット312が取得した中値類似度シーケンスに基づくリコール率は、処理待ちテキストについての類似度シーケンスに基づくリコール率に比べて約3.01%向上しており、手動平均類似度シーケンスに基づくリコール率に比較して約2.01%向上している。また、ビデオタイミング位置決めユニット312が取得した平均類似度シーケンスに基づくリコール率は、処理待ちテキストについての類似度シーケンスに基づくリコール率に比較して約1.83%向上しており、手動平均類似度シーケンスに基づくリコール率に比べて約0.83%向上している。
In FIG. 4, IoU0.5 R@1 indicates that if the IoU (Intersection over Union) between the optimal identification result and the true value is greater than 0.5, the recall rate when the identification result is correct is determined. show. As shown in FIG. 4, the recall rate based on the medium similarity sequence obtained by the video
また、図4に示すように、ビデオタイミング位置決めユニット312が取得した中値類似度シーケンスに基づくリコール率は、ビデオタイミング位置決めユニット312が取得した平均類似度シーケンスに基づくリコール率に比べてさらに約1.18%向上しており、何故ならば、中値類似度シーケンスが平均類似度シーケンスに比べてノイズの影響をさらに低減できるからである。
Also, as shown in FIG. 4, the recall rate based on the median similarity sequences obtained by the video
一例として、図3に示すように、情報処理装置300はさらに、候補テキスト選択ユニット314及び目標テキスト選択ユニット316を含んでも良い。
As an example, the
候補テキスト選択ユニット314は、第二所定数の第四テキストのうちから、処理待ちテキストとの語義マッチ度が所定マッチ度以上である複数の第四テキストを候補テキストとして選択するように構成されても良い。 The candidate text selection unit 314 is configured to select, from among the second predetermined number of fourth texts, a plurality of fourth texts having a semantic matching degree with the text to be processed equal to or greater than a predetermined matching degree as candidate texts. Also good.
目標テキスト選択ユニット316は、候補テキスト選択ユニット314が選択した候補テキストのうちから、互いの間のテキスト類似度が最も低い第三所定数の候補テキストを目標テキストとして選択するように構成されても良い。なお、実際のニーズに応じて第三所定数を設定しても良い。 The target text selection unit 316 may be configured to select, from among the candidate texts selected by the candidate text selection unit 314, a third predetermined number of candidate texts having the lowest text similarity between each other as target texts. good. The third predetermined number may be set according to actual needs.
上述の候補テキスト選択ユニット314及び目標テキスト選択ユニット316の操作により、例えば、第四テキストのうちから、互いの間の類似度がより低い目標テキストをさらに選択するようにさせることができ、これにより、目標テキストの多様性をさらに向上させることができる。 The operation of the candidate text selection unit 314 and the target text selection unit 316 described above may, for example, cause further selection of target texts among the fourth texts that have a lower degree of similarity between each other, whereby , can further improve the diversity of target texts.
情報処理装置300が候補テキスト選択ユニット314及び目標テキスト選択ユニット316を含む場合、ビデオタイミング位置決めユニット312は処理待ちテキスト及び目標テキストに基づいて、所定のビデオから、処理待ちテキストに対応するフレームの位置を識別することで、例えば、識別精度をさらに向上させることができる。
If the
例えば、目標テキスト選択ユニット316は、行列式ポイントプロセスを利用して、候補テキストのうちの、互いの間のテキスト類似度が最も低い第三所定数の候補テキストを目標テキストとして選択できる。例えば、目標テキスト選択ユニット316は、上述の目標モデル選択ユニット108について説明した方法と類似した方法でマトリックスを構築し、その後、行列式ポイントプロセスを用いて、構築されたマトリックスのL*L次元最大行列式サブマトリックスを求めることができ、そのうち、L*L次元最大行列式サブマトリックスは、候補テキストのうちの、互いの間のテキスト類似度が最も低い第三所定数の候補テキストに対応する。ここで、Lは0よりも大きい自然数であり、それは第三所定数を表す。
For example, target text selection unit 316 may utilize a determinant point process to select a third predetermined number of candidate texts that have the lowest text similarity between each other among the candidate texts as target texts. For example, target text selection unit 316 constructs a matrix in a manner similar to that described for target
なお、図3では点線枠を用いて候補テキスト選択ユニット314及び目標テキスト選択ユニット316を示しており、これは幾つかの実施例において情報処理装置300が候補テキスト選択ユニット314及び目標テキスト選択ユニット316を含まなくても良いことを意味する。
Note that FIG. 3 uses dashed boxes to denote candidate text selection unit 314 and target text selection unit 316, which in some embodiments
以下、図5をもとに本発明の第三実施例に係る情報処理装置400を説明する。図5は本発明の第三実施例における情報処理装置400の機能構成例のブロック図である。
The
図5に示すように、本発明の第三実施例による情報処理装置400は第二テキスト生成ユニット402、候補モデル選択ユニット404、類似度計算ユニット406、目標モデル選択ユニット408、第四テキスト生成ユニット410及びマルチモーダルモデル訓練ユニット420を含んでも良い。第二テキスト生成ユニット402、候補モデル選択ユニット404、類似度計算ユニット406、目標モデル選択ユニット408及び第四テキスト生成ユニット410は上述の図1及び図2をベースに説明した第一情報処理装置100に含まれる第二テキスト生成ユニット102、候補モデル選択ユニット104、類似度計算ユニット106、目標モデル選択ユニット108及び第四テキスト生成ユニット110と類似しているので、ここではその詳しい説明を省略する。
As shown in FIG. 5, the
例えば、マルチモーダルモデル訓練ユニット420は処理待ちテキスト及び第二所定数の第四テキストに基づいて、ビデオタイミング位置決めのためのマルチモーダルモデルを訓練することで、訓練済みのマルチモーダルモデルを得るように構成されても良い。これにより、例えば、訓練済みのマルチモーダルモデルの識別精度、ロバストネスなどを向上させることができる。 For example, the multimodal model training unit 420 trains a multimodal model for video timing positioning based on the pending text and the second predetermined number of fourth texts to obtain a trained multimodal model. may be configured. Thereby, for example, the discrimination accuracy, robustness, etc. of the trained multimodal model can be improved.
一例として、図5に示すように、情報処理装置400はさらに、候補テキスト選択ユニット414及び目標テキスト選択ユニット416を含み得る。候補テキスト選択ユニット414及び目標テキスト選択ユニット416は上述の図3をもとに説明した候補テキスト選択ユニット314及び目標テキスト選択ユニット316と類似しているので、ここではその詳しい説明を省略する。
As an example, the
例えば、マルチモーダルモデル訓練ユニット420は処理待ちテキスト、及び候補テキスト選択ユニット414が選択した目標テキストに基づいて、ビデオタイミング位置決めのためのマルチモーダルモデルを訓練することで、訓練済みのマルチモーダルモデルを得るように構成されても良く、これにより、例えば、訓練済みのマルチモーダルモデルの識別精度、ロバストネスなどをさらに向上させることができる。 For example, multimodal model training unit 420 trains a multimodal model for video timing positioning based on the pending text and the target text selected by candidate text selection unit 414, resulting in a trained multimodal model. , which can further improve, for example, discriminative accuracy, robustness, etc. of the trained multimodal model.
なお、図5では点線枠で候補テキスト選択ユニット414及び目標テキスト選択ユニット416を示しており、これは幾つかの実施例において情報処理装置400が候補テキスト選択ユニット414及び目標テキスト選択ユニット416を含まなくても良いことを意味する。
It should be noted that FIG. 5 shows candidate text selection unit 414 and target text selection unit 416 in dashed boxes, which indicates that
以下、図6を参照しながら本発明の第四実施例における情報処理装置500を説明する。図6は本発明の第四実施例に係る情報処理装置500の機能構成例のブロック図である。
The
図6に示すように、本発明の第四実施例による情報処理装置500は第五テキスト生成ユニット502、候補テキスト選択ユニット504、テキスト類似度計算ユニット506及び目標テキスト選択ユニット508を含み得る。
As shown in FIG. 6, the
第五テキスト生成ユニット502はテキスト生成モデルを利用して、処理待ちテキストに対応する複数の第五テキストを生成するように構成されても良い。例えば、第五テキスト生成ユニット502はバックトランスレーション方法により複数の第五テキストを生成できる。例えば、第五テキスト生成ユニット502は複数のテキスト生成モデル(例えば、複数のテキスト翻訳モデル)を使用して複数の第五テキストを生成できる。また、例えば、第五テキスト生成ユニット502は一つのテキスト生成モデル(例えば、一つのテキスト翻訳モデル)を用いて、ビーム探索(beam search)により、複数の第五テキストを生成できる。 The fifth text generation unit 502 may be configured to utilize the text generation model to generate a plurality of fifth texts corresponding to the pending text. For example, the fifth text generation unit 502 can generate multiple fifth texts by back translation method. For example, the fifth text generation unit 502 can use multiple text generation models (eg, multiple text translation models) to generate multiple fifth texts. Also, for example, the fifth text generation unit 502 can use one text generation model (eg, one text translation model) to generate a plurality of fifth texts by beam search.
候補テキスト選択ユニット504は、第五テキスト生成ユニット502が生成した複数の第五テキストのうちから、処理待ちテキストとの語義マッチ度が所定マッチ度以上である第五テキストを候補第五テキストとして選択するように構成されても良い。 A candidate text selection unit 504 selects, from among the plurality of fifth texts generated by the fifth text generation unit 502, fifth texts having a degree of semantic matching with the text awaiting processing equal to or greater than a predetermined degree of matching as candidate fifth texts. It may be configured to
テキスト類似度計算ユニット506は、各候補第五テキストについて、該候補第五テキストと他の候補第五テキストのうちの各々とのテキスト類似度を計算するように構成されても良い。例えば、テキスト類似度計算ユニット506は、上述の第一実施例における類似度計算ユニット106がテキスト類似度を計算する方法と類似した方法を利用して、候補第五テキストの間のテキスト類似度を算出できる。
The text similarity calculation unit 506 may be configured to calculate, for each candidate fifth text, the text similarity between the candidate fifth text and each of the other candidate fifth texts. For example, the text similarity calculation unit 506 calculates the text similarity between the candidate fifth texts using a method similar to the method by which the
目標テキスト選択ユニット508は、候補第五テキストのうちから、互いの間のテキスト類似度が最も低い第四所定数の候補第五テキストを、後続の処理のために、目標テキストとして選択するように構成されても良い。例えば、目標テキスト選択ユニット508は、行列式ポイントプロセスを利用して、候補第五テキストのうちから、互いの間のテキスト類似度が最も低い第四所定数の候補第五テキストを、後続の処理のために、目標テキストとして選択することができる。例えば、実際のニーズに応じて第四所定数を設定できる。 A target text selection unit 508 is configured to select, from among the candidate fifth texts, a fourth predetermined number of candidate fifth texts having the lowest text similarity between each other as target texts for subsequent processing. may be configured. For example, target text selection unit 508 may utilize a determinant point process to select, from among candidate fifth texts, a fourth predetermined number of candidate fifth texts with the lowest text similarity between each other for subsequent processing. can be selected as the target text for For example, the fourth predetermined number can be set according to actual needs.
上述のように、本発明の第四実施例による情報処理装置500は、処理待ちテキストと、テキスト生成モデルを用いて生成された第五テキストとの間の語義マッチ度、及び、第五テキストの間のテキスト類似度を考慮して、複数の第五テキストのうちから目標テキストを選択できる。よって、目標テキストと処理待ちテキストとの間には適切な語義マッチ度があり、例えば、目標テキストと処理待ちテキストの意味は互いに近くても良い。また、目標テキストの間のテキスト類似度が比較的低くなっても良く、これによって、多様性が比較的高くなる。言い換えれば、情報処理装置500により、高品質及び高多様性を有する目標テキストを得ることができる。
As described above, the
例えば、処理待ちテキストはユーザ入力のテキスト、又は、ユーザ入力の語音又は画像を変換して取得したテキストを含んでも良い。 For example, the text to be processed may include user-inputted text, or text obtained by converting user-inputted speech sounds or images.
一例として、図6に示すように、情報処理装置500はさらに、ビデオタイミング位置決めユニット512を含んでも良い。ビデオタイミング位置決めユニット512は、処理待ちテキスト、及び目標テキスト選択ユニット508により選択された目標テキストに基づいて、所定のビデオから、処理待ちテキストに対応するフレームの位置を認識できる。ビデオタイミング位置決めユニット512は強化されたテキスト(即ち、処理待ちテキスト及び目標テキスト)を用いて所定のビデオに対して識別を行うことができるため、識別精度を向上させることができる。例えば、ビデオタイミング位置決めユニット512は、上述の第二実施例におけるビデオタイミング位置決めユニット312の設定と類似した設定を有しても良いので、ここではその詳しい説明を省略する。
As an example, the
図7は、Charades-STAのデータセットの場合、それぞれ、処理待ちテキストについての類似度シーケンス、ビデオタイミング位置決めユニット512が取得した平均類似度シーケンス、及び手動平均類似度シーケンスを利用して目標フレーム識別を行った結果の例を示している。図7に示す例では、一つの処理待ちテキストに対応する目標テキストの数が10である。図7に示すように、ビデオタイミング位置決めユニット512が取得した平均類似度シーケンスに基づくリコール率は、処理待ちテキストについての類似度シーケンスに基づくリコール率よりも約1.62%向上しており、手動平均類似度シーケンスに基づくリコール率よりも約0.62%向上している。 FIG. 7 shows target frame identification using the similarity sequence for the pending text, the average similarity sequence obtained by the video timing positioning unit 512, and the manual average similarity sequence, respectively, for the Charades-STA dataset. shows an example of the results of In the example shown in FIG. 7, the number of target texts corresponding to one pending text is ten. As shown in FIG. 7, the recall rate based on the average similarity sequence obtained by the video timing positioning unit 512 is about 1.62% better than the recall rate based on the similarity sequence for the pending text, and the manual It is about 0.62% better than the recall rate based on the average similarity sequence.
もう1つの例として、処理待ちテキストは訓練テキストを含んでも良く、図6に示すように、情報処理装置500はさらに、マルチモーダルモデル訓練ユニット520を含んでも良い。例えば、マルチモーダルモデル訓練ユニット520は、処理待ちテキスト、及び目標テキスト選択ユニット508により選択された目標テキストに基づいて、ビデオタイミング位置決めのためのマルチモーダルモデルを訓練することで、訓練済みのマルチモーダルモデルを得ても良く、これにより、例えば、訓練済みのマルチモーダルモデルの識別精度、ロバストネスなどを向上させることができる。例えば、マルチモーダルモデル訓練ユニット520は上述の第三実施例におけるマルチモーダルモデル訓練ユニット420の設定と類似した設定を有しても良いので、ここではその詳しい説明を省略する。
As another example, the text to be processed may include training text, and as shown in FIG. 6,
なお、図6では点線枠でビデオタイミング位置決めユニット512及びマルチモーダルモデル訓練ユニット520を示しており、これは幾つかの実施例において情報処理装置500がビデオタイミング位置決めユニット512及び/又はマルチモーダルモデル訓練ユニット520を含まなくても良いことを表す。
It should be noted that in FIG. 6 the video timing positioning unit 512 and the multimodal model training unit 520 are shown in dashed boxes, indicating that in some embodiments the
以上、本発明の実施例による情報処理装置を説明したが、上述の情報処理装置の実施例に対応して、本発明はさらに以下のような情報処理方法の実施例を提供する。 Although the information processing apparatus according to the embodiments of the present invention has been described above, the present invention further provides the following information processing method embodiments corresponding to the above-described information processing apparatus embodiments.
図8は本発明の実施例における情報処理方法600の例示的なフローチャートである。図8に示すように、本発明の実施例による情報処理方法600はスタートステップS601で開始し、エンドステップS612で終了しても良く、また、第二テキスト生成ステップS602、候補モデル選択ステップS604、類似度計算ステップS606、目標モデル選択ステップS608及び第四テキスト生成ステップS610を含んでも良い。
FIG. 8 is an exemplary flowchart of an
第二テキスト生成ステップS602では、一つ又は複数の所定の第一テキストのうちの各々について、複数のテキスト生成モデルを用いて、該第一テキストに対応する複数の第二テキストを生成できる。例えば、第二テキスト生成ステップS602は上述の装置の実施例における第二テキスト生成ユニット102、302及び402により実施され得るので、具体的な細部については上述の第二テキスト生成ユニット102、302及び402についての説明を参照でき、ここではその詳しい説明を省略する。
In the second text generation step S602, for each of one or more predetermined first texts, multiple text generation models can be used to generate multiple second texts corresponding to the first text. For example, the second text generation step S602 can be performed by the second
候補モデル選択ステップS604では、第二テキスト生成ステップS602で生成された上述の複数の第二テキストと、対応する第一テキストとの間の語義マッチ度に基づいて、上述の複数のテキスト生成モデルのうちから、第一所定数のテキスト生成モデルを候補モデルとして選択できる。例えば、実際のニーズに応じて第一所定数を設定できる。また、例えば、候補モデル選択ステップS604は上述の装置の実施例における候補モデル選択ユニット104、304及び404により実施され得るので、具体的な細部については上述の候補モデル選択ユニット104、304及び404についての説明を参照でき、ここではその詳しい説明を省略する。
In the candidate model selection step S604, the plurality of text generation models are selected based on the degree of semantic matching between the plurality of second texts generated in the second text generation step S602 and the corresponding first texts. From among them, a first predetermined number of text generation models can be selected as candidate models. For example, the first predetermined number can be set according to actual needs. Also, for example, candidate model selection step S604 may be performed by candidate
類似度計算ステップS606では、上述の一つ又は複数の所定の第一テキストのうちの各々について、候補モデル選択ステップS604で選択された候補モデルによって生成された、該第一テキストに対応する複数の第二テキストの互いの間のテキスト類似度を計算し、そして、第二テキストの互いの間のテキスト類似度に基づいて、候補モデルの互いの間のモデル類似度を計算できる。例えば、類似度計算ステップS606は上述の装置の実施例における類似度計算ユニット106、306及び406により実施され得るため、具体的な細部については上述の類似度計算ユニット106、306及び406についての説明を参照でき、ここではその詳しい説明を省略する。
In a similarity calculation step S606, for each of said one or more predetermined first texts, a plurality of corresponding first text generated by the candidate model selected in the candidate model selection step S604 A text similarity between the second texts can be calculated, and a model similarity between the candidate models can be calculated based on the text similarity between the second texts. For example, the similarity calculation step S606 can be performed by the
目標モデル選択ステップS608では、候補モデルのうちから、互いの間のモデル類似度が最も低い第二所定数の候補モデルを目標モデルとして選択できる。例えば、実際のニーズに応じて第二所定数を設定できる。例えば、目標モデル選択ステップS608は上述の装置の実施例における目標モデル選択ユニット108、308及び408により実施され得るから、具体的な細部については上述の目標モデル選択ユニット108、308及び408についての説明を参照でき、ここではその詳しい説明を省略する。
In the target model selection step S608, from among the candidate models, a second predetermined number of candidate models having the lowest model similarity between each other can be selected as target models. For example, the second predetermined number can be set according to actual needs. For example, target model selection step S608 may be performed by target
第四テキスト生成ステップS610では、目標モデルを利用して、処理待ちテキストに対応する第二所定数の第四テキストを、後続の処理のために生成できる。例えば、第四テキスト生成ステップS610は上述の装置の実施例における第四テキスト生成ユニット110、310及び410により実施され得るので、具体的な細部については上述の第四テキスト生成ユニット110、310及び410についての説明を参照でき、ここではその詳しい説明を省略する。
In a fourth text generation step S610, the target model can be used to generate a second predetermined number of fourth texts corresponding to the pending texts for subsequent processing. For example, the fourth text generation step S610 can be performed by the fourth
本発明の実施例に係る情報処理装置と同様に、本発明の第五実施例による情報処理方法600も、第一テキストと、複数のテキスト生成モデルにより生成された第二テキストとの間の語義マッチ度、及び、第二テキストの間のテキスト類似度を考慮して、複数のテキスト生成モデルのうちから目標モデルを選択できる。よって、目標モデルを利用して、処理待ちテキストとの間に適切な語義マッチ度を有する第四テキストを生成でき、例えば、処理待ちテキストの意味に近い第四テキストを生成できる。また、第四テキストの間のテキスト類似度が比較的低くなっても良く、これによって、多様性が比較的高くなる。言い換えれば、情報処理方法600により、高品質及び高多様性を備える第四テキストを生成できる。
Similar to the information processing apparatus according to the embodiments of the present invention, the
一例として、類似度計算ステップS606では次のような方式で任意の二つの第二テキストの間のテキスト類似度を算出でき、即ち、この二つの第二テキストをそれぞれワード及び/又はフレーズの集合に分割し、得られた集合の間の共通集合及び合併集合を取得し、そして、取得された共通集合に含まれるワード及びフレーズの数(即ち、ワードの数とフレーズの数との合計)と、取得された合併集合に含まれるワード及びフレーズの数(即ち、ワードの数とフレーズの数との合計)との比を、前記任意の二つの第二テキストの間のテキスト類似度として算出する。 For example, in the similarity calculation step S606, the text similarity between any two second texts can be calculated in the following way: each of the two second texts is a set of words and/or phrases. dividing and obtaining intersections and unions between the obtained sets, and the number of words and phrases contained in the obtained intersections (i.e., the sum of the number of words and the number of phrases); A ratio of the number of words and phrases (ie, the sum of the number of words and the number of phrases) contained in the obtained merged set is calculated as the text similarity between the two arbitrary second texts.
例えば、類似度計算ステップS606では次のような方式で任意の二つの候補モデルの間のモデル類似度を計算でき、即ち、一つ又は複数の所定の第一テキストのうちの各々について、上述の任意の二つの候補モデルにより取得された、該第一テキストに対応する第二テキストの間のテキスト類似度を取得し、そして、上述の一つ又は複数の所定の第一テキストに対応するテキスト類似度の平均値を、上述の任意の二つの候補モデルの間のモデル類似度として計算する。 For example, the similarity calculation step S606 can calculate the model similarity between any two candidate models in the following manner: For each of the one or more predetermined first texts, the above obtaining the text similarity between the second texts corresponding to the first texts obtained by any two candidate models; Calculate the mean of the degrees as the model similarity between any two candidate models above.
例えば、目標モデル選択ステップS608では行列式ポイントプロセスを用いて、候補モデルのうちの、互いの間のモデル類似度が最も低い第二所定数の候補モデルを目標モデルとして選ぶことができる。 For example, the target model selection step S608 may use a determinant point process to select as target models a second predetermined number of candidate models that have the lowest model similarity between each other among the candidate models.
一例として、情報処理方法600はさらに、ビデオタイミング位置決めステップ(図示せず)を含み得る。ビデオタイミング位置決めステップでは、処理待ちテキスト、及び第四テキスト生成ステップS610で生成された第二所定数の第四テキストに基づいて、所定のビデオから処理待ちテキストに対応するフレームの位置を識別できる。ビデオタイミング位置決めステップでは強化されたテキスト(即ち、処理待ちテキスト及び第四テキスト)を用いて所定のビデオに対して識別を行うことができるため、識別精度を向上させることができる。
As an example,
例えば、ビデオタイミング位置決めステップは上述の第二実施例の中のビデオタイミング位置決めユニット312により実施され得るので、具体的な細部については上述のビデオタイミング位置決めユニット312についての説明を参照でき、ここではその詳しい説明を省略する。
For example, the video timing positioning step can be performed by the video
もう1つの例として、情報処理方法600はさらに、マルチモーダルモデル訓練ステップ(図示せず)を含んでも良い。マルチモーダルモデル訓練ステップでは、処理待ちテキスト及び第二所定数の第四テキストに基づいて、ビデオタイミング位置決めのためのマルチモーダルモデルを訓練することで、訓練済みのマルチモーダルモデルを得ることができ、これにより、例えば、訓練済みのマルチモーダルモデルの識別精度、ロバストネスなどを向上させることができる。例えば、マルチモーダルモデル訓練ステップは上述の第三実施例中のマルチモーダルモデル訓練ユニット420により実施され得るため、具体的な細部については上述のマルチモーダルモデル訓練ユニット420についての説明を参照でき、ここではその詳しい説明を省略する。
As another example,
一例として、情報処理方法600はさらに、候補テキスト選択ステップ及び目標テキスト選択ステップ(図示せず)を含んでも良い。
As an example, the
候補テキスト選択ステップでは、第二所定数の第四テキストのうちから、処理待ちテキストとの語義マッチ度が所定マッチ度以上である複数の第四テキストを候補テキストとして選択できる。例えば、候補テキスト選択ステップは上述の装置の実施例における候補テキスト選択ユニット314及び414により実施され得るため、具体的な細部については上述の候補テキスト選択ユニット314及び414についての説明を参照でき、ここではその詳しい説明を省略する。 In the candidate text selection step, from among the second predetermined number of fourth texts, a plurality of fourth texts having a word sense matching degree with the text awaiting processing equal to or greater than a predetermined matching degree can be selected as candidate texts. For example, the candidate text selection step may be performed by the candidate text selection units 314 and 414 in the apparatus embodiments described above, so for specific details see the description of the candidate text selection units 314 and 414 above, here. The detailed explanation is omitted here.
目標テキスト選択ステップでは、候補テキスト選択ステップで選択された候補テキストのうちから、互いの間のテキスト類似度が最も低い第三所定数の候補テキストを目標テキストとして選ぶことができる。例えば、目標テキスト選択ステップは上述の装置の実施例における目標テキスト選択ユニット316及び416により実施され得るため、具体的な細部については上述の目標テキスト選択ユニット316及び416についての説明を参照でき、ここではその詳しい説明を省略する。 In the target text selection step, from among the candidate texts selected in the candidate text selection step, a third predetermined number of candidate texts having the lowest text similarity between each other may be selected as target texts. For example, since the target text selection step can be performed by the target text selection units 316 and 416 in the apparatus embodiments described above, the specific details can be referred to the description of the target text selection units 316 and 416 above, here. The detailed explanation is omitted here.
例えば、情報処理方法600が候補テキスト選択ステップ及び目標テキスト選択ステップを含む場合、ビデオタイミング位置決めステップでは、処理待ちテキスト及び目標テキストに基づいて、所定のビデオから、処理待ちテキストに対応するフレームの位置を識別できるため、例えば、識別精度をさらに向上させることができる。
For example, if the
また、例えば、情報処理方法600が候補テキスト選択ステップ及び目標テキスト選択ステップを含む場合、マルチモーダルモデル訓練ステップでは、処理待ちテキスト及び目標テキストに基づいて、ビデオタイミング位置決めのためのマルチモーダルモデルを訓練することで、訓練済みのマルチモーダルモデルを得ることができるので、例えば、訓練済みのマルチモーダルモデルの識別精度、ロバストネスなどをさらに向上させることができる。
Also, for example, if the
以下、図9を参照しながら本発明の第六実施例における情報処理方法700を説明する。図9は本発明の実施例における情報処理方法700の例示的なフローチャートである。図9に示すように、本発明の実施例における情報処理方法700はスタートステップS701で開始し、エンドステップS712で終了しても良く、また、第五テキスト生成ステップS702、候補テキスト選択ステップS704、テキスト類似度計算ステップS706及び目標テキスト選択ステップS708を含んでも良い。
The
第五テキスト生成ステップS702では、テキスト生成モデルを用いて処理待ちテキストに対応する複数の第五テキストを生成できる。例えば、第五テキスト生成ステップS702は上述の第四実施例中の第五テキスト生成ユニット502により実施され得るため、具体的な細部については上述の第五テキスト生成ユニット502についての説明を参照でき、ここではその詳しい説明を省略する。 In the fifth text generation step S702, the text generation model can be used to generate a plurality of fifth texts corresponding to the pending texts. For example, the fifth text generation step S702 can be implemented by the fifth text generation unit 502 in the above fourth embodiment, so the specific details can refer to the description of the fifth text generation unit 502 above, A detailed description thereof is omitted here.
候補テキスト選択ステップS704では、第五テキスト生成ステップS702で生成された複数の第五テキストのうちから、処理待ちテキストとの語義マッチ度が所定マッチ度以上である第五テキストを候補第五テキストとして選択できる。例えば、候補テキスト選択ステップS704は上述の第四実施例における候補テキスト選択ユニット504により実施され得るため、具体的な細部については上述の候補テキスト選択ユニット504についての説明を参照でき、ここではその詳しい説明を省略する。 In the candidate text selection step S704, from among the plurality of fifth texts generated in the fifth text generation step S702, a fifth text having a word meaning matching degree with the text awaiting processing equal to or higher than a predetermined matching degree is selected as a candidate fifth text. You can choose. For example, since the candidate text selection step S704 can be implemented by the candidate text selection unit 504 in the fourth embodiment described above, the specific details can be referred to the above description of the candidate text selection unit 504, and here the details are described. Description is omitted.
テキスト類似度計算ステップS706では、各候補第五テキストについて、該候補第五テキストと他の候補第五テキストのうちの各々とのテキスト類似度を計算できる。例えば、テキスト類似度計算ステップS706は上述の第四実施例中のテキスト類似度計算ユニット506により実施され得るため、具体的な細部については上述のテキスト類似度計算ユニット506についての説明を参照でき、ここではその詳しい説明を省略する。 In a text similarity calculation step S706, for each candidate fifth text, the text similarity between the candidate fifth text and each of the other candidate fifth texts can be calculated. For example, the text similarity calculation step S706 can be implemented by the text similarity calculation unit 506 in the above fourth embodiment, so the specific details can refer to the above description of the text similarity calculation unit 506, A detailed description thereof is omitted here.
目標テキスト選択ステップS708では、候補第五テキストのうちから、互いの間のテキスト類似度が最も低い第四所定数の候補第五テキストを、後続の処理のために、目標テキストとして選択することができる。例えば、目標テキスト選択ステップS708は上述の第四実施例の中の目標テキスト選択ユニット508により実施され得るので、具体的な細部については上述の目標テキスト選択ユニット508についての説明を参照でき、ここではその詳しい説明を省略する。 In a target text selection step S708, from among the candidate fifth texts, a fourth predetermined number of candidate fifth texts having the lowest text similarity between each other may be selected as target texts for subsequent processing. can. For example, the target text selection step S708 can be implemented by the target text selection unit 508 in the above-described fourth embodiment, so the specific details can refer to the above description of the target text selection unit 508, and here A detailed description thereof is omitted.
上述のように、本発明の第六実施例による情報処理方法700は、処理待ちテキストと、テキスト生成モデルを用いて生成された第五テキストとの間の語義マッチ度、及び第五テキストの間のテキスト類似度を考慮して、複数の第五テキストのうちから目標テキストを選択できる。よって、目標テキストと処理待ちテキストとの間には適切な語義マッチ度があり、例えば、目標テキストと処理待ちテキストとの意味は近くても良い。また、目標テキストの間のテキスト類似度が比較的低くなっても良く、これによって、多様性が比較的高くなる。言い換えれば、情報処理方法700により、高品質及び高多様性を有する目標テキストを取得できる。
As described above, the
一例として、情報処理方法700はさらに、ビデオタイミング位置決めステップ(図示せず)を含み得る。ビデオタイミング位置決めステップでは、処理待ちテキスト及び目標テキストに基づいて、所定のビデオから、処理待ちテキストに対応するフレームの位置を認識できるので、例えば、識別精度を向上させることができる。例えば、ビデオタイミング位置決めステップは上述の第四実施例中のビデオタイミング位置決めユニット512により実施され得るため、具体的な細部については上述のビデオタイミング位置決めユニット512についての説明を参照でき、ここではその詳しい説明を省略する。
As an example,
他の例として、情報処理方法700はさらに、マルチモーダルモデル訓練ステップ(図示せず)を含んでも良い。例えば、マルチモーダルモデル訓練ステップでは、処理待ちテキスト及び目標テキストに基づいて、ビデオタイミング位置決めのためのマルチモーダルモデルを訓練することで、訓練済みのマルチモーダルモデルを得ることができ、これによって、例えば、訓練済みのマルチモーダルモデルの識別精度、ロバストネスなどを向上させることができる。例えば、マルチモーダルモデル訓練ステップは上述の第四実施例中のマルチモーダルモデル訓練ユニット520により実施され得るので、具体的な細部については上述のマルチモーダルモデル訓練ユニット520についての説明を参照でき、ここではその詳しい説明を省略する。
As another example,
なお、以上、本発明の実施例に係る情報処理装置及び情報処理方法の機能設定及び操作を説明したが、これらは例示に過ぎず、当業者は本発明の原理に基づいて上述の実施例に対して変更などを行うことができ、例えば、各実施例中の機能モジュール及び操作の増減、組み合わせなどを行うことができ、また、このような変更などは、すべて、本発明の範囲に属する。 Although the function settings and operations of the information processing apparatus and the information processing method according to the embodiments of the present invention have been described above, these are merely examples, and those skilled in the art will be able to modify the above-described embodiments based on the principles of the present invention. For example, functional modules and operations in each embodiment may be added, reduced, combined, etc., and all such modifications are within the scope of the present invention.
また、ここでの方法の実施例は上述の装置の実施例に対応するものであるので、方法の実施例で詳細に説明されない内容については装置の実施例中の対応する部分の説明を参照でき、ここではその詳しい説明を省略する。 In addition, since the method embodiments herein correspond to the apparatus embodiments described above, the corresponding descriptions in the apparatus embodiments can be referred to for details not described in the method embodiments. , the detailed description of which is omitted here.
また、本発明はさらに、記憶媒体及びプログラムプロダクトを提供する。なお、本発明の実施例による記憶媒体及びプログラムプロダクト中のマシン可実行な命令はさらに、上述の情報処理方法を実行するように構成され得る。よって、ここで詳細に説明されない内容については前の対応する部分の説明を参照できるため、ここではその詳しい説明を省略する。 Also, the present invention further provides a storage medium and a program product. It should be noted that the machine-executable instructions in the storage media and program products according to embodiments of the present invention may be further configured to perform the information processing methods described above. Therefore, the contents not described in detail here can be referred to the description of the previous corresponding part, and the detailed description thereof will be omitted here.
さらに、上述の一連の処理及び装置はソフトウェア及び/又はファームウェアにより実現され得る。ソフトウェア及び/又はファームウェアにより実現される場合、記憶媒体又はネットワークから、専用ハードウェア構造を有するコンピュータ、例えば、図10に示す汎用パーソナルコンピュータ1000に、該ソフトウェアを構成するプログラムをインストールし、該コンピュータは各種のプログラムがインストールされているときに、各種の機能などを実行できる。
Furthermore, the series of processes and devices described above may be implemented by software and/or firmware. When realized by software and/or firmware, a program that constitutes the software is installed from a storage medium or network to a computer having a dedicated hardware structure, for example, a general-purpose
それ相応に、上述のマシン実行可能な命令を含むプログラムプロダクトをキャリー(carry)する記憶媒体も本発明の開示に含まれる。該記憶媒体はフロッピーディスク、光ディスク、磁気ディスク、メモリカードなどを含んでも良いが、これらに限定されない。 Correspondingly, storage media carrying program products containing machine-executable instructions as described above are also included in the present disclosure. The storage medium may include, but is not limited to, floppy disks, optical disks, magnetic disks, memory cards, and the like.
上述の装置における各構成コンポーネントやユニットなどは、ソフトウェア、ファームウェア、ハードウェア又はその組み合わせの方式で構成されても良い。なお、構成に使用される具体的な手段や方法が当業者にとって周知のものであるため、ここではその詳しい説明を省略する。ソフトウェア又はファームウェアにより実現される場合、記憶媒体又はネットワークから専用ハードウェア構造を有するコンピュータ(例えば、図10に示す汎用コンピュータ1000)に該ソフトウェアを構成するプログラムをインストールし、該コンピュータは各種のプログラムがインストールされているときに、各種の機能などを実現することができる。
Each constituent component, unit, etc. in the above-described apparatus may be configured in the form of software, firmware, hardware, or a combination thereof. Since specific means and methods used for the configuration are well known to those skilled in the art, detailed description thereof will be omitted here. When realized by software or firmware, a program that constitutes the software is installed from a storage medium or a network to a computer having a dedicated hardware structure (for example, a general-
図10は、本発明の実施例における方法及び装置を実現し得るハードウェア構成(汎用コンピュータ)1000の構成図である。 FIG. 10 is a block diagram of a hardware configuration (general-purpose computer) 1000 that can implement the methods and apparatus of embodiments of the present invention.
汎用コンピュータ1000は、例えば、コンピュータシステムであっても良い。なお、汎用コンピュータ1000は例示に過ぎず、本発明による方法及び装置の適用範囲又は機能について限定しない。また、汎用コンピュータ1000は、上述の方法及び装置における任意のモジュールやアセンブリなど又はその組み合わせにも依存しない。
図10では、中央処理装置(CPU)1001は、ROM1002に記憶されるプログラム又は記憶部1008からRAM1003にロッドされているプログラムに基づいて各種の処理を行う。RAM1003では、ニーズに応じて、CPU1001が各種の処理を行うときに必要なデータなどを記憶することもできる。CPU1001、ROM1002及びRAM1003は、バス1004を経由して互いに接続される。入力/出力インターフェース1005もバス1004に接続される。
In FIG. 10, a central processing unit (CPU) 1001 performs various processes based on programs stored in a
また、入力/出力インターフェース1005にはさらに、次のような部品が接続され、即ち、キーボードなどを含む入力部1006、液晶表示器(LCD)などのような表示器及びスピーカーなどを含む出力部1007、ハードディスクなどを含む記憶部1008、ネットワーク・インターフェース・カード、例えば、LANカード、モデムなどを含む通信部1009である。通信部1009は、例えば、インターネット、LANなどのネットワークを経由して通信処理を行う。ドライブ1010は、ニーズに応じて、入力/出力インターフェース1005に接続されても良い。取り外し可能な媒体1011、例えば、半導体メモリなどは、必要に応じて、ドライブ1010にセットされることにより、その中から読み取られたコンピュータプログラムを記憶部1008にインストールすることができる。
The input/
また、本発明はさらに、マシン可読命令コードを含むプログラムプロダクトを提供する。このような命令コードは、マシンにより読み取られ実行されるときに、上述の本発明の実施形態における方法を実行することができる。それ相応に、このようなプログラムプロダクトをキャリー(carry)する、例えば、磁気ディスク(フロッピーディスク(登録商標)を含む)、光ディスク(CD-ROM及びDVDを含む)、光磁気ディスク(MD(登録商標)を含む)、及び半導体記憶装置などの各種の記憶媒体も、本発明に含まれる。 Additionally, the present invention further provides a program product including machine-readable instruction code. Such instruction codes, when read and executed by a machine, are capable of performing the methods in the embodiments of the present invention described above. Correspondingly, for carrying such program products, for example magnetic disks (including floppy disks), optical disks (including CD-ROMs and DVDs), magneto-optical disks (MD®) ), and various storage media such as semiconductor storage devices are also included in the present invention.
上述の記憶媒体は、例えば、磁気ディスク、光ディスク、光磁気ディスク、半導体記憶装置などを含んでも良いが、これらに限定されない。 The storage medium described above may include, for example, a magnetic disk, an optical disk, a magneto-optical disk, a semiconductor storage device, etc., but is not limited to these.
また、上述の方法における各操作(処理)は、各種のマシン可読記憶媒体に記憶されるコンピュータ実行可能なプログラムの方式で実現することもできる。 Each operation (process) in the above-described method can also be implemented in the form of a computer-executable program stored on various machine-readable storage media.
また、以上の実施例などに関し、さらに以下のように付記として開示する。 In addition, the above examples and the like are further disclosed as supplementary notes as follows.
(付記1)
情報処理装置であって、
一つ又は複数の所定の第一テキストのうちの各々について、複数のテキスト生成モデルを用いて、該第一テキストに対応する複数の第二テキストを生成するように構成される第二テキスト生成ユニット;
前記複数の第二テキストと、対応する第一テキストとの間の語義マッチ度に基づいて、前記複数のテキスト生成モデルのうちから、第一所定数のテキスト生成モデルを候補モデルとして選択するように構成される候補モデル選択ユニット;
前記一つ又は複数の所定の第一テキストのうちの各々について、前記候補モデルを用いて生成された、該第一テキストに対応する複数の第二テキストの互いの間のテキスト類似度を計算し、そして、第二テキストの互いの間のテキスト類似度に基づいて、前記候補モデルの互いの間のモデル類似度を計算するように構成される類似度計算ユニット;
前記候補モデルのうちから、互いの間のモデル類似度が最も低い第二所定数の候補モデルを目標モデルとして選択するように構成される目標モデル選択ユニット;及び
前記目標モデルを用いて、処理待ちテキストに対応する第二所定数の第四テキストを、後続の処理のために生成するように構成される第四テキスト生成ユニットを含む、装置。
(Appendix 1)
An information processing device,
A second text generation unit configured to generate, for each of one or more predetermined first texts, a plurality of second texts corresponding to the first text using a plurality of text generation models. ;
selecting a first predetermined number of text generation models from among the plurality of text generation models as candidate models based on the degree of semantic matching between the plurality of second texts and the corresponding first text; a composed candidate model selection unit;
For each of the one or more predetermined first texts, calculate text similarity between each of a plurality of second texts corresponding to the first text generated using the candidate model. and a similarity computation unit configured to compute model similarities between said candidate models based on text similarities between each other of second texts;
a target model selection unit configured to select, as target models, from among said candidate models a second predetermined number of candidate models having the lowest model similarity between each other; and, using said target models, pending processing. An apparatus comprising a fourth text generation unit configured to generate a second predetermined number of fourth texts corresponding to the text for subsequent processing.
(付記2)
付記1に記載の情報処理装置であって、
前記処理待ちテキストは、ユーザ入力のテキスト、又は、ユーザ入力の語音又は画像を変換して取得したテキストを含み、
前記情報処理装置はビデオタイミング位置決めユニットをさらに含み、それは、前記処理待ちテキスト及び前記第二所定数の第四テキストに基づいて、所定のビデオから、前記処理待ちテキストに対応するフレームの位置を識別するように構成される、装置。
(Appendix 2)
The information processing device according to Supplementary Note 1,
The text awaiting processing includes text input by the user or text obtained by converting speech sounds or images input by the user;
The information processing apparatus further includes a video timing positioning unit, which, based on the pending text and the second predetermined number of fourth texts, identifies from a given video the position of the frame corresponding to the pending text. A device configured to.
(付記3)
付記1に記載の情報処理装置であって、
前記処理待ちテキストは訓練テキストを含み、
前記情報処理装置は、さらに、
前記処理待ちテキスト及び前記第二所定数の第四テキストに基づいてビデオタイミング位置決めのためのマルチモーダルモデルを訓練し、訓練済みのマルチモーダルモデルを得るように構成される、マルチモーダルモデル訓練ユニットを含む、装置。
(Appendix 3)
The information processing device according to Supplementary Note 1,
the pending text includes training text;
The information processing device further includes:
a multimodal model training unit configured to train a multimodal model for video timing positioning based on the pending text and the second predetermined number of fourth texts to obtain a trained multimodal model; including, equipment.
(付記4)
付記2に記載の情報処理装置であって、さらに、
前記第二所定数の第四テキストのうちから、前記処理待ちテキストとの語義マッチ度が所定マッチ度以上である複数の第四テキストを候補テキストとして選択するように構成される候補テキスト選択ユニット;及び
前記候補テキストのうちから、互いの間のテキスト類似度が最も低い第三所定数の候補テキストを目標テキストとして選択するように構成される目標テキスト選択ユニットを含み、
そのうち、前記ビデオタイミング位置決めユニットはさらに、前記処理待ちテキスト及び前記目標テキストに基づいて、前記所定のビデオから、前記処理待ちテキストに対応するレームの位置を識別するように構成される、装置。
(Appendix 4)
The information processing device according to appendix 2, further comprising:
a candidate text selection unit configured to select, as candidate texts, a plurality of fourth texts having a semantic matching degree with the awaiting text equal to or greater than a predetermined matching degree from among the second predetermined number of fourth texts; and a target text selection unit configured to select, as target texts, from among the candidate texts, a third predetermined number of candidate texts having the lowest text similarity between each other;
wherein said video timing positioning unit is further configured to identify, from said predetermined video, a position of a frame corresponding to said pending text based on said pending text and said target text.
(付記5)
付記1乃至4のうちの何れか1項に記載の情報処理装置であって、
前記第一テキスト、前記第二テキスト及び前記第四テキストは同じ語種に属し、
前記第二テキスト生成ユニットはバックトランスレーション方法を用いて前記複数の第二テキストを生成するように構成され、
前記第四テキスト生成ユニットはバックトランスレーション方法を用いて前記第四テキストを生成するように構成される、装置。
(Appendix 5)
The information processing device according to any one of Appendices 1 to 4,
the first text, the second text and the fourth text belong to the same word class;
the second text generation unit is configured to generate the plurality of second texts using a back translation method;
The apparatus, wherein the fourth text generation unit is configured to generate the fourth text using a back-translation method.
(付記6)
付記1乃至4のうちの何れか1項に記載の情報処理装置であって、
前記類似度計算ユニットは、次のような方式で、前記複数の第二テキストの互いの間のテキスト類似度を計算するように構成され、即ち、
各第二テキストをワード及び/又はフレーズの集合に分割し;及び
任意の二つの第二テキストに対応する二つのワード及び/又はフレーズの集合の間の共通集合及び合併集合を取得し、かつ取得された共通集合に含まれるワード及びフレーズの数と、取得された合併集合に含まれるワード及びフレーズの数との比を、前記任意の二つの第二テキストの間のテキスト類似度として計算する、装置。
(Appendix 6)
The information processing device according to any one of Appendices 1 to 4,
The similarity calculation unit is configured to calculate the text similarity between each other of the plurality of second texts in the following manner:
dividing each secondary text into a set of words and/or phrases; and obtaining and obtaining intersections and unions between the two sets of words and/or phrases corresponding to any two secondary texts. calculating the ratio of the number of words and phrases in the obtained intersection to the number of words and phrases in the obtained union as the text similarity between any two second texts; Device.
(付記7)
付記6に記載の情報処理装置であって、
前記類似度計算ユニットは、次のような方式で、前記候補モデルの互いの間のモデル類似度を計算するように構成され、即ち、
前記一つ又は複数の所定の第一テキストのうちの各々について、任意の二つの候補モデルにより取得された、該第一テキストに対応する第二テキストの間のテキスト類似度を取得し、かつ前記一つ又は複数の所定の第一テキストに対応するテキスト類似度の平均値を、上述の任意の二つの候補モデルの間のモデル類似度として計算する、装置。
(Appendix 7)
The information processing device according to appendix 6,
The similarity computation unit is configured to compute model similarities between the candidate models in the following manner:
For each of the one or more predetermined first texts, obtain text similarity between second texts corresponding to the first text obtained by any two candidate models; and Apparatus for calculating an average value of text similarities corresponding to one or more predetermined first texts as a model similarity between any two candidate models mentioned above.
(付記8)
付記1乃至4のうちの何れか1項に記載の情報処理装置であって、
前記目標モデル選択ユニットは、次のような方式で、前記目標モデルを選択するように構成され、即ち、
前記候補モデルの互いの間のモデル類似度に基づいてN*N次元マトリックスを構築し、前記N*N次元マトリックスにおける各要素は対応する候補モデルの間のモデル類似度を表し、そのうち、Nは前記第一所定数を表し;
行列式ポイントプロセスを用いて前記N*N次元マトリックスのM*M次元最大行列式サブマトリックスを求め、そのうち、Mは前記第二所定数を表し;及び
前記M*M次元最大行列式サブマトリックスに対応する候補モデルを前記目標モデルとして選択する、装置。
(Appendix 8)
The information processing device according to any one of Appendices 1 to 4,
The target model selection unit is configured to select the target model in the following manner:
constructing an N*N-dimensional matrix based on the model similarities between the candidate models each other, each element in the N*N-dimensional matrix representing the model similarity between corresponding candidate models, where N is representing said first predetermined number;
determining an M*M dimensional maximal determinant sub-matrix of said N*N dimensional matrix using a determinant point process, wherein M represents said second predetermined number; Apparatus for selecting a corresponding candidate model as said target model.
(付記9)
付記4に記載の情報処理装置であって、
前記ビデオタイミング位置決めユニットはさらに、前記処理待ちテキストに基づく識別結果及び前記目標テキストに基づく識別結果の中値に基づいて最終識別結果を確定するように構成される、装置。
(Appendix 9)
The information processing device according to appendix 4,
The apparatus, wherein the video timing positioning unit is further configured to determine a final identification result based on a median value of the pending text-based identification result and the target text-based identification result.
(付記10)
情報処理装置であって、
テキスト生成モデルを用いて、処理待ちテキストに対応する複数の第五テキストを生成するように構成される第五テキスト生成ユニット;
前記複数の第五テキストのうちから、前記処理待ちテキストとの語義マッチ度が所定マッチ度以上である第五テキストを候補第五テキストとして選択するように構成される候補テキスト選択ユニット;
各候補第五テキストについて、該候補第五テキストと、他の候補第五テキストのうちの各々との間のテキスト類似度を計算するように構成されるテキスト類似度計算ユニット;及び
前記候補第五テキストのうちから、互いの間のテキスト類似度が最も低い第四所定数の候補第五テキストを、後続の処理のために、目標テキストとして選択するように構成される目標テキスト選択ユニットを含む、装置。
(Appendix 10)
An information processing device,
a fifth text generation unit configured to generate a plurality of fifth texts corresponding to the pending text using the text generation model;
a candidate text selection unit configured to select, from among the plurality of fifth texts, a fifth text having a semantic matching degree with the awaiting text equal to or greater than a predetermined matching degree as a candidate fifth text;
a text similarity computation unit configured to compute, for each candidate fifth text, a text similarity between said candidate fifth text and each of the other candidate fifth texts; and said candidate fifth text. a target text selection unit configured to select, from among the texts, a fourth predetermined number of candidate fifth texts having the lowest text similarity between each other as target texts for subsequent processing; Device.
(付記11)
付記10に記載の情報処理装置であって、
前記処理待ちテキストは、ユーザ入力のテキスト、又は、ユーザ入力の語音又は画像を変換して取得したテキストを含み、
前記情報処理装置はビデオタイミング位置決めユニットをさらに含み、それは前記処理待ちテキスト及び前記目標テキストに基づいて、所定のビデオから前記処理待ちテキストに対応するフレームの位置を見つけるように構成される、装置。
(Appendix 11)
The information processing device according to Appendix 10,
The text awaiting processing includes text input by the user or text obtained by converting speech sounds or images input by the user;
The information processing device further comprises a video timing positioning unit, which is configured to locate a frame corresponding to the pending text from a given video based on the pending text and the target text.
(付記12)
付記10に記載の情報処理装置であって、
前記処理待ちテキストは訓練テキストを含み、
前記情報処理装置はマルチモーダルモデル訓練ユニットをさらに含み、それは、前記処理待ちテキスト及び前記目標テキストに基づいてビデオタイミング位置決めのためのマルチモーダルモデルを訓練し、訓練済みのマルチモーダルモデルを得るように構成される、装置。
(Appendix 12)
The information processing device according to Appendix 10,
the pending text includes training text;
The information processing device further includes a multimodal model training unit, which trains a multimodal model for video timing positioning based on the pending text and the target text to obtain a trained multimodal model. Constructed, device.
(付記13)
情報処理方法であって、
一つ又は複数の所定の第一テキストのうちの各々について、複数のテキスト生成モデルを用いて該第一テキストに対応する複数の第二テキストを生成し;
前記複数の第二テキストと、対応する第一テキストとの間の語義マッチ度に基づいて、前記複数のテキスト生成モデルのうちから、第一所定数のテキスト生成モデルを候補モデルとして選択し;
前記一つ又は複数の所定の第一テキストのうちの各々について、前記候補モデルを用いて生成された、該第一テキストに対応する複数の第二テキストの互いの間のテキスト類似度を計算し、そして、第二テキストの互いの間のテキスト類似度に基づいて、前記候補モデルの互いの間のモデル類似度を計算し;
前記候補モデルのうちから、互いの間のモデル類似度が最も低い第二所定数の候補モデルを目標モデルとして選択し;及び
前記目標モデルを用いて、処理待ちテキストに対応する第二所定数の第四テキストを、後続の処理のために生成することを含む、方法。
(Appendix 13)
An information processing method,
for each of one or more predetermined first texts, generating a plurality of second texts corresponding to the first text using a plurality of text generation models;
selecting a first predetermined number of text generation models from among the plurality of text generation models as candidate models based on the degree of semantic match between the plurality of second texts and the corresponding first text;
For each of the one or more predetermined first texts, calculate text similarity between each of a plurality of second texts corresponding to the first text generated using the candidate model. and calculating the model similarity between the candidate models based on the text similarity between the second texts;
selecting a second predetermined number of candidate models having the lowest model similarity between each other as target models from the candidate models; and using the target models, a second predetermined number corresponding to pending text. A method comprising generating a fourth text for subsequent processing.
(付記14)
付記13に記載の情報処理方法であって、
前記処理待ちテキストは、ユーザ入力のテキスト、又は、ユーザ入力の語音又は画像を変換して取得したテキストを含み、
前記情報処理方法はさらに、前記処理待ちテキスト及び前記第二所定数の第四テキストに基づいて、所定のビデオから、前記処理待ちテキストに対応するフレームの位置を認識することを含む、方法。
(Appendix 14)
The information processing method according to Appendix 13,
The text awaiting processing includes text input by the user or text obtained by converting speech sounds or images input by the user;
The information processing method further comprises recognizing, from a given video, a position of a frame corresponding to the pending text based on the pending text and the second predetermined number of fourth texts.
(付記15)
付記13に記載の情報処理方法であって、
前記処理待ちテキストは訓練テキストを含み、
前記情報処理方法はさらに、前記処理待ちテキスト及び前記第二所定数の第四テキストに基づいてビデオタイミング位置決めのためのマルチモーダルモデルを訓練し、訓練済みのマルチモーダルモデルを得ることを含む、方法。
(Appendix 15)
The information processing method according to Appendix 13,
the pending text includes training text;
The information processing method further comprises training a multimodal model for video timing positioning based on the pending text and the second predetermined number of fourth texts to obtain a trained multimodal model. .
(付記16)
付記14に記載の情報処理方法であって、さらに、
前記第二所定数の第四テキストのうちから、前記処理待ちテキストとの語義マッチ度が所定マッチ度以上である複数の第四テキストを候補テキストとして選択し;及び
前記候補テキストのうちから、互いの間のテキスト類似度が最も低い第三所定数の候補テキストを目標テキストとして選択することを含み、
そのうち、前記処理待ちテキストに対応するフレームの位置の認識は前記処理待ちテキスト及び前記目標テキストに基づいて、前記所定のビデオから、前記処理待ちテキストに対応するフレームの位置を認識することを含む、方法。
(Appendix 16)
The information processing method according to appendix 14, further comprising:
selecting, as candidate texts, a plurality of fourth texts having a degree of semantic matching with the text awaiting processing equal to or greater than a predetermined degree of matching, from among the second predetermined number of fourth texts; selecting as target text a third predetermined number of candidate texts having the lowest text similarity between
wherein recognizing a position of a frame corresponding to the pending text includes recognizing a position of a frame corresponding to the pending text from the predetermined video based on the pending text and the target text; Method.
(付記17)
付記13乃至16のうちの何れか1項に記載の情報処理方法であって、
前記第一テキスト、前記第二テキスト及び前記第四テキストは同じ語種に属し、
バックトランスレーション方法を用いて、前記複数の第二テキスト及び前記第四テキストを生成する、方法。
(Appendix 17)
17. The information processing method according to any one of Appendices 13 to 16,
the first text, the second text and the fourth text belong to the same word class;
generating said plurality of second texts and said fourth texts using a back-translation method.
(付記18)
付記13乃至16のうちの何れか1項に記載の情報処理方法であって、
次のような方式で、前記複数の第二テキストの互いの間のテキスト類似度を計算し、即ち、
各第二テキストをワード及び/又はフレーズの集合に分割し;及び
任意の二つの第二テキストに対応する二つのワード及び/又はフレーズの集合の間の共通集合及び合併集合を取得し、かつ取得された共通集合に含まれるワード及びフレーズの数と、取得された合併集合に含まれるワード及びフレーズの数との比を、前記任意の二つの第二テキストの間のテキスト類似度として計算する、方法。
(Appendix 18)
17. The information processing method according to any one of Appendices 13 to 16,
calculating the text similarity between the plurality of second texts in the following manner:
dividing each secondary text into a set of words and/or phrases; and obtaining and obtaining intersections and unions between the two sets of words and/or phrases corresponding to any two secondary texts. calculating the ratio of the number of words and phrases in the obtained intersection to the number of words and phrases in the obtained union as the text similarity between any two second texts; Method.
(付記19)
付記18に記載の情報処理方法であって、
次のような方式で、前記候補モデル互いの間のモデル類似度を計算し、即ち、
前記一つ又は複数の所定の第一テキストのうちの各々について、任意の二つの候補モデルにより取得された、該第一テキストに対応する第二テキストの間のテキスト類似度を取得し、かつ前記一つ又は複数の所定の第一テキストに対応するテキスト類似度の平均値を、上述の任意の二つの候補モデルの間のモデル類似度として計算する、方法。
(Appendix 19)
The information processing method according to Appendix 18,
Compute the model similarity between the candidate models in the following manner:
For each of the one or more predetermined first texts, obtain text similarity between second texts corresponding to the first text obtained by any two candidate models; and A method of calculating an average value of text similarities corresponding to one or more given first texts as the model similarity between any two candidate models mentioned above.
(付記20)
付記16に記載の情報処理方法であって、
前記処理待ちテキストに基づく識別結果及び前記目標テキストに基づく識別結果の中値に基づいて最終識別結果を決定する、方法。
(Appendix 20)
The information processing method according to appendix 16,
determining a final identification result based on a median value of the pending text-based identification result and the target text-based identification result.
以上、本発明の好ましい実施形態を説明したが、本発明はこの実施形態に限定されず、本発明の趣旨を離脱しない限り、本発明に対するあらゆる変更は、本発明の技術的範囲に属する。 Although the preferred embodiment of the present invention has been described above, the present invention is not limited to this embodiment, and all modifications to the present invention fall within the technical scope of the present invention as long as they do not depart from the gist of the present invention.
Claims (10)
一つ又は複数の所定の第一テキストのうちの各々について、複数のテキスト生成モデルを用いて、該第一テキストに対応する複数の第二テキストを生成するように構成される第二テキスト生成ユニット;
前記複数の第二テキストと、対応する第一テキストとの間の語義マッチ度に基づいて、前記複数のテキスト生成モデルのうちから、第一所定数のテキスト生成モデルを候補モデルとして選択するように構成される候補モデル選択ユニット;
前記一つ又は複数の所定の第一テキストのうちの各々について、前記候補モデルを用いて生成された、該第一テキストに対応する複数の第二テキストの互いの間のテキスト類似度を計算し、第二テキストの互いの間のテキスト類似度に基づいて、前記候補モデルの互いの間のモデル類似度を計算するように構成される類似度計算ユニット;
前記候補モデルのうちから、互いの間のモデル類似度が最も低い第二所定数の候補モデルを目標モデルとして選択するように構成される目標モデル選択ユニット;及び
前記目標モデルを用いて、処理待ちテキストに対応する第二所定数の第四テキストを、後続の処理のために生成するように構成される第四テキスト生成ユニットを含む、情報処理装置。 An information processing device,
A second text generation unit configured to generate, for each of one or more predetermined first texts, a plurality of second texts corresponding to the first text using a plurality of text generation models. ;
selecting a first predetermined number of text generation models from among the plurality of text generation models as candidate models based on the degree of semantic matching between the plurality of second texts and the corresponding first text; a composed candidate model selection unit;
For each of the one or more predetermined first texts, calculate text similarity between each of a plurality of second texts corresponding to the first text generated using the candidate model. , a similarity computation unit configured to compute model similarities between said candidate models based on text similarities between each other of second texts;
a target model selection unit configured to select, as target models, from among said candidate models a second predetermined number of candidate models having the lowest model similarity between each other; and, using said target models, pending processing. Information processing apparatus comprising a fourth text generation unit configured to generate a second predetermined number of fourth texts corresponding to the text for subsequent processing.
前記処理待ちテキストは、ユーザ入力のテキスト、又は、ユーザ入力の語音又は画像を変換して取得したテキストを含み、
前記情報処理装置はビデオタイミング位置決めユニットをさらに含み、前記ビデオタイミング位置決めユニットは、前記処理待ちテキスト及び前記第二所定数の第四テキストに基づいて、所定のビデオから、前記処理待ちテキストに対応するフレームの位置を識別するように構成される、情報処理装置。 The information processing device according to claim 1,
The text awaiting processing includes text input by the user or text obtained by converting speech sounds or images input by the user;
The information processing device further comprises a video timing positioning unit, the video timing positioning unit corresponding to the pending text from a predetermined video based on the pending text and the second predetermined number of fourth texts. An information processing device configured to identify the position of a frame.
前記情報処理装置はマルチモーダルモデル訓練ユニットをさらに含み、前記マルチモーダルモデル訓練ユニットは、前記処理待ちテキスト及び前記第二所定数の第四テキストに基づいて、ビデオタイミング位置決めのためのマルチモーダルモデルを訓練し、訓練済みのマルチモーダルモデルを得るように構成される、情報処理装置。 The information processing device according to claim 1,
The information processing apparatus further includes a multimodal model training unit, wherein the multimodal model training unit develops a multimodal model for video timing positioning based on the pending text and the second predetermined number of fourth texts. An information processor configured to train and obtain a trained multimodal model.
前記第二所定数の第四テキストのうちから、前記処理待ちテキストとの語義マッチ度が所定マッチ度以上である複数の第四テキストを候補テキストとして選択するように構成される候補テキスト選択ユニット;及び
前記候補テキストのうちから、互いの間のテキスト類似度が最も低い第三所定数の候補テキストを目標テキストとして選択するように構成される目標テキスト選択ユニットをさらに含み、
前記ビデオタイミング位置決めユニットはさらに、前記処理待ちテキスト及び前記目標テキストに基づいて、前記所定のビデオから、前記処理待ちテキストに対応するレームの位置を識別するように構成される、情報処理装置。 The information processing device according to claim 2,
a candidate text selection unit configured to select, as candidate texts, a plurality of fourth texts having a semantic matching degree with the awaiting text equal to or greater than a predetermined matching degree from among the second predetermined number of fourth texts; and further comprising a target text selection unit configured to select, as target texts, a third predetermined number of candidate texts having the lowest text similarity between each other from among the candidate texts;
The information processing apparatus, wherein the video timing positioning unit is further configured to identify, from the predetermined video, a position of a frame corresponding to the pending text based on the pending text and the target text.
前記第一テキスト、前記複数の第二テキスト及び前記第四テキストは同じ語種に属し、
前記第二テキスト生成ユニットはバックトランスレーション方法を用いて前記複数の第二テキストを生成するように構成され、
前記第四テキスト生成ユニットはバックトランスレーション方法を用いて前記第四テキストを生成するように構成される、情報処理装置。 The information processing device according to any one of claims 1 to 4,
the first text, the plurality of second texts and the fourth text belong to the same word class;
the second text generation unit is configured to generate the plurality of second texts using a back translation method;
Information processing apparatus, wherein the fourth text generation unit is configured to generate the fourth text using a back-translation method.
前記類似度計算ユニットは、
各第二テキストをワード及び/又はフレーズの集合に分割し;及び
任意の二つの第二テキストに対応する二つのワード及び/又はフレーズの集合の間の共通集合及び合併集合を取得し、取得された共通集合に含まれるワード及びフレーズの数と、取得された合併集合に含まれるワード及びフレーズの数との比を、前記任意の二つの第二テキストの間のテキスト類似度として計算する
ことにより、前記複数の第二テキストの互いの間のテキスト類似度を計算するように構成される、情報処理装置。 The information processing device according to any one of claims 1 to 4,
The similarity calculation unit is
dividing each secondary text into a set of words and/or phrases; by calculating the ratio of the number of words and phrases contained in the obtained intersection to the number of words and phrases contained in the obtained union set as the text similarity between any two second texts , an information processing device configured to calculate a text similarity between said plurality of second texts.
前記類似度計算ユニットは、
前記一つ又は複数の所定の第一テキストのうちの各々について、任意の二つの候補モデルにより取得された、該第一テキストに対応する第二テキストの間のテキスト類似度を取得し、前記一つ又は複数の所定の第一テキストに対応するテキスト類似度の平均値を、上述の任意の二つの候補モデルの間のモデル類似度として計算する
ことにより、前記候補モデルの互いの間のモデル類似度を計算するように構成される、報処理装置。 The information processing device according to claim 6,
The similarity calculation unit is
for each of the one or more predetermined first texts, obtaining text similarity between second texts corresponding to the first texts obtained by any two candidate models; model similarity between each other of said candidate models by calculating the mean value of the text similarities corresponding to one or more given first texts as the model similarity between any two candidate models mentioned above; An information processing device configured to calculate degrees.
前記目標モデル選択ユニットは、
前記候補モデルの互いの間のモデル類似度に基づいてN*N次元マトリックスを構築し、前記N*N次元マトリックスにおける各要素は、対応する候補モデルの間のモデル類似度を表し、Nは前記第一所定数を表し;
行列式ポイントプロセスを用いて前記N*N次元マトリックスのM*M次元最大行列式サブマトリックスを求め、Mは前記第二所定数を表し;及び
前記M*M次元最大行列式サブマトリックスに対応する候補モデルを前記目標モデルとして選択する
ことにより、前記目標モデルを選択するように構成される、情報処理装置。 The information processing device according to any one of claims 1 to 4,
The target model selection unit comprises:
constructing an N*N-dimensional matrix based on the model similarities between the candidate models, each element in the N*N-dimensional matrix representing the model similarity between the corresponding candidate models, N being the representing a first predetermined number;
determining an M*M dimensional maximal determinant sub-matrix of said N*N dimensional matrix using a determinant point process, where M represents said second predetermined number; and corresponding to said M*M dimensional maximal determinant sub-matrix. An information processing apparatus configured to select the target model by selecting a candidate model as the target model.
テキスト生成モデルを用いて、処理待ちテキストに対応する複数の第五テキストを生成するように構成される第五テキスト生成ユニット;
前記複数の第五テキストのうちから、前記処理待ちテキストとの語義マッチ度が所定マッチ度以上である第五テキストを候補第五テキストとして選択するように構成される候補テキスト選択ユニット;
各候補第五テキストについて、該候補第五テキストと、他の候補第五テキストのうちの各々との間のテキスト類似度を計算するように構成されるテキスト類似度計算ユニット;及び
前記候補第五テキストのうちから、互いの間のテキスト類似度が最も低い第四所定数の候補第五テキストを、後続の処理のために、目標テキストとして選択するように構成される目標テキスト選択ユニットを含む、情報処理装置。 An information processing device,
a fifth text generation unit configured to generate a plurality of fifth texts corresponding to the pending text using the text generation model;
a candidate text selection unit configured to select, from among the plurality of fifth texts, a fifth text having a semantic matching degree with the awaiting text equal to or greater than a predetermined matching degree as a candidate fifth text;
a text similarity computation unit configured to compute, for each candidate fifth text, a text similarity between said candidate fifth text and each of the other candidate fifth texts; and said candidate fifth text. a target text selection unit configured to select, from among the texts, a fourth predetermined number of candidate fifth texts having the lowest text similarity between each other as target texts for subsequent processing; Information processing equipment.
一つ又は複数の所定の第一テキストのうちの各々について、複数のテキスト生成モデルを用いて該第一テキストに対応する複数の第二テキストを生成し;
前記複数の第二テキストと、対応する第一テキストとの間の語義マッチ度に基づいて、前記複数のテキスト生成モデルのうちから、第一所定数のテキスト生成モデルを候補モデルとして選択し;
前記一つ又は複数の所定の第一テキストのうちの各々について、前記候補モデルを用いて生成された、該第一テキストに対応する複数の第二テキストの互いの間のテキスト類似度を計算し、第二テキストの互いの間のテキスト類似度に基づいて、前記候補モデルの互いの間のモデル類似度を計算し;
前記候補モデルのうちから、互いの間のモデル類似度が最も低い第二所定数の候補モデルを目標モデルとして選択し;及び
前記目標モデルを用いて、処理待ちテキストに対応する第二所定数の第四テキストを、後続の処理のために生成することを含む、情報処理方法。 An information processing method,
for each of one or more predetermined first texts, generating a plurality of second texts corresponding to the first text using a plurality of text generation models;
selecting a first predetermined number of text generation models from among the plurality of text generation models as candidate models based on the degree of semantic match between the plurality of second texts and the corresponding first text;
For each of the one or more predetermined first texts, calculate text similarity between each of a plurality of second texts corresponding to the first text generated using the candidate model. , calculating the model similarity between the candidate models based on the text similarity between the second texts;
selecting a second predetermined number of candidate models having the lowest model similarity between each other as target models from the candidate models; and using the target models, a second predetermined number corresponding to pending text. A method of information processing, comprising generating a fourth text for subsequent processing.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111581637.0 | 2021-12-22 | ||
CN202111581637.0A CN116415587A (en) | 2021-12-22 | 2021-12-22 | Information processing apparatus and information processing method |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2023093349A true JP2023093349A (en) | 2023-07-04 |
Family
ID=87001064
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022194980A Pending JP2023093349A (en) | 2021-12-22 | 2022-12-06 | Information processing device and information processing method |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP2023093349A (en) |
CN (1) | CN116415587A (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117473047A (en) * | 2023-12-26 | 2024-01-30 | 深圳市明源云客电子商务有限公司 | Business text generation method and device, electronic equipment and readable storage medium |
-
2021
- 2021-12-22 CN CN202111581637.0A patent/CN116415587A/en active Pending
-
2022
- 2022-12-06 JP JP2022194980A patent/JP2023093349A/en active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117473047A (en) * | 2023-12-26 | 2024-01-30 | 深圳市明源云客电子商务有限公司 | Business text generation method and device, electronic equipment and readable storage medium |
CN117473047B (en) * | 2023-12-26 | 2024-04-12 | 深圳市明源云客电子商务有限公司 | Business text generation method and device, electronic equipment and readable storage medium |
Also Published As
Publication number | Publication date |
---|---|
CN116415587A (en) | 2023-07-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109887497B (en) | Modeling method, device and equipment for speech recognition | |
JP5318230B2 (en) | Recognition dictionary creation device and speech recognition device | |
US8065149B2 (en) | Unsupervised lexicon acquisition from speech and text | |
JP7092953B2 (en) | Phoneme-based context analysis for multilingual speech recognition with an end-to-end model | |
JP5752060B2 (en) | Information processing apparatus, large vocabulary continuous speech recognition method and program | |
JP2011018330A (en) | System and method for transforming kanji into vernacular pronunciation string by statistical method | |
Sitaram et al. | Speech synthesis of code-mixed text | |
CN103714048A (en) | Method and system used for revising text | |
US11929060B2 (en) | Consistency prediction on streaming sequence models | |
Hasegawa-Johnson et al. | ASR for under-resourced languages from probabilistic transcription | |
CN102439660A (en) | Voice-tag method and apparatus based on confidence score | |
CN113299282B (en) | Voice recognition method, device, equipment and storage medium | |
JP2023093349A (en) | Information processing device and information processing method | |
CN113327574A (en) | Speech synthesis method, device, computer equipment and storage medium | |
Thomas et al. | Code-switching in Indic Speech Synthesisers. | |
JP2015045689A (en) | Method for evaluating voice recognition result about voice recognition system, computer and computer program for the same | |
JP5544575B2 (en) | Spoken language evaluation apparatus, method, and program | |
KR102299269B1 (en) | Method and apparatus for building voice database by aligning voice and script | |
KR20230156125A (en) | Lookup table recursive language model | |
JP2020140674A (en) | Answer selection device and program | |
US11080488B2 (en) | Information processing apparatus, output control method, and computer-readable recording medium | |
US20210209314A1 (en) | Symbol sequence converting apparatus and symbol sequence conversion method | |
CN110619866A (en) | Speech synthesis method and device | |
US20240086636A1 (en) | Keyword detection device, keyword detection method, and computer program product | |
US20230107475A1 (en) | Exploring Heterogeneous Characteristics of Layers In ASR Models For More Efficient Training |