JP2016180849A - Learning data generation unit, language model learning unit, learning data generation method and program - Google Patents
Learning data generation unit, language model learning unit, learning data generation method and program Download PDFInfo
- Publication number
- JP2016180849A JP2016180849A JP2015060664A JP2015060664A JP2016180849A JP 2016180849 A JP2016180849 A JP 2016180849A JP 2015060664 A JP2015060664 A JP 2015060664A JP 2015060664 A JP2015060664 A JP 2015060664A JP 2016180849 A JP2016180849 A JP 2016180849A
- Authority
- JP
- Japan
- Prior art keywords
- data
- sentence
- learning
- tree structure
- language model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
Description
本発明は、音声認識、統計翻訳、自然言語処理などで用いられる統計的言語モデルの学習データを生成する学習データ生成装置、学習データ生成方法、統計的言語モデルを学習する言語モデル学習装置、プログラムに関する。 The present invention relates to a learning data generation device that generates learning data of a statistical language model used in speech recognition, statistical translation, natural language processing, and the like, a learning data generation method, a language model learning device that learns a statistical language model, and a program About.
単語n-gramなどの統計的言語モデルの学習には大量の文章データが必要であるが、文章データの量が増えても、単語の全てのn個組のうちの一部しか得られない問題が常に生じる。そのため、できるだけ文章データを利用しつくす工夫が必要とされている。 Learning a statistical language model such as a word n-gram requires a large amount of sentence data, but even if the amount of sentence data increases, only a part of all n sets of words can be obtained. Always occurs. For this reason, it is necessary to devise ways to use text data as much as possible.
例えば非特許文献1では、必ずしも連接せずに間にある単語をスキップして得られた単語のn個組を生成して、これを単語n-gramの学習データとして利用する試みがなされている。 For example, in Non-Patent Document 1, an attempt is made to generate n sets of words obtained by skipping words in between without necessarily being connected, and to use this as learning data for the word n-gram. .
非特許文献1の方法で学習データを生成した場合、言語的に隣り合って並びえない単語のn個組まで生成する虞があり、このような学習データを用いても、高精度な統計的言語モデルを学習することができなかった。 When learning data is generated by the method of Non-Patent Document 1, there is a risk of generating up to n sets of words that are linguistically adjacent to each other. Even if such learning data is used, high-precision statistical data may be generated. I could not learn a language model.
そこで本発明では、隣接しえない単語n個組の生成を抑え、与えられた文章データから隣接しうる言語として自然な単語n個組を多く生成できる学習データ生成装置を提供することを目的とする。 SUMMARY OF THE INVENTION Accordingly, an object of the present invention is to provide a learning data generation device that can suppress the generation of n adjacent words that cannot be adjacent to each other and can generate many natural words as a language that can be adjacent from given sentence data. To do.
本発明の学習データ生成装置は、木構造生成部と、文生成部を含む。 The learning data generation apparatus of the present invention includes a tree structure generation unit and a sentence generation unit.
木構造生成部は、単語毎に区切られた文章データと文章データの文節間の係り受けデータを所定の長さ読み込んで、所定の長さの文章データの係り受け関係を表す木構造を生成する。文生成部は、木構造に基づいて、他の文節を受けていない文節を一部、または全部取り除いて、新たな文を生成する。 The tree structure generation unit reads the dependency data between the sentence data divided by words and the clauses of the sentence data with a predetermined length, and generates a tree structure representing the dependency relation of the sentence data with a predetermined length. . The sentence generation unit generates a new sentence by removing some or all of the phrases that have not received other phrases based on the tree structure.
本発明の学習データ生成装置によれば、隣接しえない単語n個組の生成を抑え、与えられた文章データから隣接しうる言語として自然な単語n個組を多く生成できる。 According to the learning data generation apparatus of the present invention, generation of n sets of words that cannot be adjacent to each other can be suppressed, and many natural word sets as words that can be adjacent to each other can be generated from given sentence data.
以下、本発明の実施の形態について、詳細に説明する。なお、同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。 Hereinafter, embodiments of the present invention will be described in detail. In addition, the same number is attached | subjected to the structure part which has the same function, and duplication description is abbreviate | omitted.
図1、図2を参照して本実施例の学習データ生成装置、言語モデル学習装置の構成、および動作について説明する。図1は、本実施例の学習データ生成装置1、言語モデル学習装置2の構成を示すブロック図である。図2は、本実施例の学習データ生成装置1、言語モデル学習装置2の動作を示すフローチャートである。
The configuration and operation of the learning data generation device and the language model learning device according to this embodiment will be described with reference to FIGS. FIG. 1 is a block diagram illustrating a configuration of a learning data generation device 1 and a language
図1に示すように、本実施例の学習データ生成装置1は、木構造生成部11と、文生成部12を含む。また、学習データ生成装置1の機能に加え、統計的言語モデルの生成までを実行する言語モデル学習装置2としてもよい。この場合、言語モデル学習装置2は、学習データ生成装置1の構成に加え、言語モデル学習部21をさらに含む構成である。
As shown in FIG. 1, the learning data generation apparatus 1 of the present embodiment includes a tree structure generation unit 11 and a
学習データ生成装置1、言語モデル学習装置2の外部の記憶領域として、文章データ記憶部8と、係り受けデータ記憶部9が存在するものとする。なお、文章データ記憶部8と、係り受けデータ記憶部9は、学習データ生成装置1、言語モデル学習装置2の内部に設けられていてもよい。文章データ記憶部8には、単語ごとに区切られた文章データが記憶されているものとする。係り受けデータ記憶部9には、文章データ記憶部8に記憶されている文章データの文節間の係り受けデータが記憶されているものとする。
Assume that a text data storage unit 8 and a dependency data storage unit 9 exist as storage areas outside the learning data generation device 1 and the language
単語ごとに区切られた文章データ(単語列データともいう)は形態素解析によって得ることができる。形態素解析は、例えば、参考非特許文献1に記載された方法によって実施できる。
(参考非特許文献1:松本裕治、“形態素解析システム「茶筅」”、情報処理、vol. 41(11)、pp. 1208-1214、2000年)
Sentence data divided into words (also referred to as word string data) can be obtained by morphological analysis. The morpheme analysis can be performed, for example, by the method described in Reference Non-Patent Document 1.
(Reference Non-Patent Document 1: Yuji Matsumoto, “A morphological analysis system“ tea bowl ””, Information Processing, vol. 41 (11), pp. 1208-1214, 2000)
係り受け解析は、形態素解析結果を入力として、複数の単語からなる文節を構成し、品詞や単語の出現形や単語のIDの関係に基づいて、文節間の係り受け関係を予測する技術である。係り受け解析は、例えば、参考非特許文献2に記載された方法によって実施できる。
(参考非特許文献2:工藤拓、松本裕治、“チャンキングの段階適用による日本語係り受け解析”、情報処理学会論文誌、43(6)、pp. 1834-1842、2002)
Dependency analysis is a technology that uses a morpheme analysis result as an input to construct a phrase composed of a plurality of words and predicts the dependency relation between phrases based on the relationship between the part of speech, the appearance form of the word, and the ID of the word. . The dependency analysis can be performed by a method described in Reference
(Reference Non-patent Document 2: Taku Kudo, Yuji Matsumoto, “Japanese Dependency Analysis by Chunking Stage Application”, IPSJ Transactions, 43 (6), pp. 1834-1842, 2002)
木構造生成部11は、単語毎に区切られた文章データと文章データの文節間の係り受けデータを所定の長さ(例えば一文ずつ)読み込んで、所定の長さの文章データの係り受け関係を表す木構造を生成する(S11)。文生成部12は、木構造に基づいて、(係り受けとして)他の文節を受けていない文節を一部、または全部取り除いて、新たな文を生成する(S12)。言語モデル学習部21は、元の文と、生成された複数の文とを用いて言語モデルを学習する(S21)。
The tree structure generation unit 11 reads dependency data between sentence data divided into words and phrases of sentence data by a predetermined length (for example, one sentence at a time), and determines dependency relations of sentence data of a predetermined length. A tree structure to represent is generated (S11). Based on the tree structure, the
以下、図3の例を参照して上述のステップS11、S12を具体的に説明する。図3は、木構造生成部11が生成する木構造を例示する図である。 Hereinafter, the above-described steps S11 and S12 will be described in detail with reference to the example of FIG. FIG. 3 is a diagram illustrating a tree structure generated by the tree structure generation unit 11.
係り受け関係はある文節がどの文節に係るかを示す情報である。係り元の文節番号と係り先の文節番号で係り受け関係が示される。これにより、木構造生成部11は例えば図3のような木構造を生成する(S11)。木構造生成部11は、文節に属する単語番号を記録することで、文節内部の構造を木に関連付ける。 The dependency relationship is information indicating which clause a certain clause relates to. The dependency relationship is indicated by the clause number of the source and the clause number of the destination. Thereby, the tree structure generation unit 11 generates a tree structure as shown in FIG. 3, for example (S11). The tree structure generation unit 11 records the word numbers belonging to the phrase, thereby associating the structure inside the phrase with the tree.
文生成部12は、木の根から(係り受けとして)どの文節も受けていない文節を取り除くことにより、さまざまな文を生成できる。また、他の文節からの係りを受けている文節であっても、補助的な単語から始まる文節はその文節も含めて係りを受けていない文節として取り除くことができる。例えば、図3では、文節「あらゆる」「すべて」「自分の」「捻じ」(図3においてドットハッチングを施した文節)は何れの文節をも受けていない。文生成部12は、これらの文節をランダムに取り除くことにより、元の文章データである
「あらゆる現実をすべて自分のほうへ捻じ曲げたのだ」
から、新たな文である
「あらゆる現実を曲げたのだ」、
「あらゆる現実を捻じ曲げたのだ」
「あらゆる現実を自分のほうへ捻じ曲げたのだ」
「あらゆる現実をすべて曲げたのだ」
などを生成する(S12)。上記の4例のうち3例目以外は補助的な単語から始まる文節まで含めた“自分のほうへ”の2文節を取り除いた例である。その結果、言語モデル学習部21は、新しい単語3個組である
「現実−を+曲げ」「現実−を+捻じ」「現実−を+自分」
などの自然にあり得るskip−gramを得ることができる。従来のようにスキップする距離を明示的に固定値として定めないので、前記の事例のように、6個、5個、2個スキップしたような上記の3つの自然な単語3個組の事例を数多く得ることができる。
The
From the new sentence, "Bent all reality",
“We twisted every reality.”
“I twisted all reality to myself.”
“I bent all the reality”
Etc. are generated (S12). Of the above four examples, the other than the third example is an example in which the two phrases “toward yourself” including the phrase starting from the auxiliary word are removed. As a result, the language
A skip-gram which can be naturally obtained can be obtained. The distance to be skipped is not explicitly set as a fixed value as in the conventional case, so the case of the above three natural words triple set such as 6, 5, or 2 skipped as in the above case. Many can be obtained.
新たな文の生成原理は何れの文節をも受けていない文節を一部、または全部取り除くことである。何れの文節をも受けていない文節がn個あれば、1つの文節を取り除く場合からn個すべての文節を取り除く場合まで、合計2n通りの新たな文を生成できる。言語モデル学習部21は、何れの文節をも受けていない文節をすべて均等に扱うのではなく、これらの文節を確率的に取り除いても良い。
The principle of generating a new sentence is to remove some or all of the phrases that have not received any of the phrases. If there are n clauses that have not received any clauses, a total of 2 n new sentences can be generated from the removal of one clause to the removal of all n clauses. The language
本実施例の学習データ生成装置1、言語モデル学習装置2によれば、従来のskip-gramとは異なるスキップの仕方で、文章データの係り受け情報に基づいて、自然な文としてあり得る学習データ、単語n個組を作成できるため、与えられた同一の文章データから従来よりも自然で多くの単語n個組を獲得し、言語モデル学習に利用することができる。また本実施例の学習データ生成装置1が生成する学習データは、単語Ngramだけではなく、得られた単語に対応する品詞から作ることができる品詞のNgramも自然なものとなるため、その他の言語モデルの学習にも利用可能なデータである。
According to the learning data generation device 1 and the language
<補記>
本発明の装置は、例えば単一のハードウェアエンティティとして、キーボードなどが接続可能な入力部、液晶ディスプレイなどが接続可能な出力部、ハードウェアエンティティの外部に通信可能な通信装置(例えば通信ケーブル)が接続可能な通信部、CPU(Central Processing Unit、キャッシュメモリやレジスタなどを備えていてもよい)、メモリであるRAMやROM、ハードディスクである外部記憶装置並びにこれらの入力部、出力部、通信部、CPU、RAM、ROM、外部記憶装置の間のデータのやり取りが可能なように接続するバスを有している。また必要に応じて、ハードウェアエンティティに、CD−ROMなどの記録媒体を読み書きできる装置(ドライブ)などを設けることとしてもよい。このようなハードウェア資源を備えた物理的実体としては、汎用コンピュータなどがある。
<Supplementary note>
The apparatus of the present invention includes, for example, a single hardware entity as an input unit to which a keyboard or the like can be connected, an output unit to which a liquid crystal display or the like can be connected, and a communication device (for example, a communication cable) capable of communicating outside the hardware entity. Can be connected to a communication unit, a CPU (Central Processing Unit, may include a cache memory or a register), a RAM or ROM that is a memory, an external storage device that is a hard disk, and an input unit, an output unit, or a communication unit thereof , A CPU, a RAM, a ROM, and a bus connected so that data can be exchanged between the external storage devices. If necessary, the hardware entity may be provided with a device (drive) that can read and write a recording medium such as a CD-ROM. A physical entity having such hardware resources includes a general-purpose computer.
ハードウェアエンティティの外部記憶装置には、上述の機能を実現するために必要となるプログラムおよびこのプログラムの処理において必要となるデータなどが記憶されている(外部記憶装置に限らず、例えばプログラムを読み出し専用記憶装置であるROMに記憶させておくこととしてもよい)。また、これらのプログラムの処理によって得られるデータなどは、RAMや外部記憶装置などに適宜に記憶される。 The external storage device of the hardware entity stores a program necessary for realizing the above functions and data necessary for processing the program (not limited to the external storage device, for example, reading a program) It may be stored in a ROM that is a dedicated storage device). Data obtained by the processing of these programs is appropriately stored in a RAM or an external storage device.
ハードウェアエンティティでは、外部記憶装置(あるいはROMなど)に記憶された各プログラムとこの各プログラムの処理に必要なデータが必要に応じてメモリに読み込まれて、適宜にCPUで解釈実行・処理される。その結果、CPUが所定の機能(上記、…部、…手段などと表した各構成要件)を実現する。 In the hardware entity, each program stored in an external storage device (or ROM or the like) and data necessary for processing each program are read into a memory as necessary, and are interpreted and executed by a CPU as appropriate. . As a result, the CPU realizes a predetermined function (respective component requirements expressed as the above-described unit, unit, etc.).
本発明は上述の実施形態に限定されるものではなく、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。また、上記実施形態において説明した処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されるとしてもよい。 The present invention is not limited to the above-described embodiment, and can be appropriately changed without departing from the spirit of the present invention. In addition, the processing described in the above embodiment may be executed not only in time series according to the order of description but also in parallel or individually as required by the processing capability of the apparatus that executes the processing. .
既述のように、上記実施形態において説明したハードウェアエンティティ(本発明の装置)における処理機能をコンピュータによって実現する場合、ハードウェアエンティティが有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記ハードウェアエンティティにおける処理機能がコンピュータ上で実現される。 As described above, when the processing functions in the hardware entity (the apparatus of the present invention) described in the above embodiments are realized by a computer, the processing contents of the functions that the hardware entity should have are described by a program. Then, by executing this program on a computer, the processing functions in the hardware entity are realized on the computer.
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、DVD(Digital Versatile Disc)、DVD−RAM(Random Access Memory)、CD−ROM(Compact Disc Read Only Memory)、CD−R(Recordable)/RW(ReWritable)等を、光磁気記録媒体として、MO(Magneto-Optical disc)等を、半導体メモリとしてEEP−ROM(Electronically Erasable and Programmable-Read Only Memory)等を用いることができる。 The program describing the processing contents can be recorded on a computer-readable recording medium. As the computer-readable recording medium, for example, any recording medium such as a magnetic recording device, an optical disk, a magneto-optical recording medium, and a semiconductor memory may be used. Specifically, for example, as a magnetic recording device, a hard disk device, a flexible disk, a magnetic tape or the like, and as an optical disk, a DVD (Digital Versatile Disc), a DVD-RAM (Random Access Memory), a CD-ROM (Compact Disc Read Only). Memory), CD-R (Recordable) / RW (ReWritable), etc., magneto-optical recording medium, MO (Magneto-Optical disc), etc., semiconductor memory, EEP-ROM (Electronically Erasable and Programmable-Read Only Memory), etc. Can be used.
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。 The program is distributed by selling, transferring, or lending a portable recording medium such as a DVD or CD-ROM in which the program is recorded. Furthermore, the program may be distributed by storing the program in a storage device of the server computer and transferring the program from the server computer to another computer via a network.
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。 A computer that executes such a program first stores, for example, a program recorded on a portable recording medium or a program transferred from a server computer in its own storage device. When executing the process, the computer reads a program stored in its own recording medium and executes a process according to the read program. As another execution form of the program, the computer may directly read the program from a portable recording medium and execute processing according to the program, and the program is transferred from the server computer to the computer. Each time, the processing according to the received program may be executed sequentially. Also, the program is not transferred from the server computer to the computer, and the above-described processing is executed by a so-called ASP (Application Service Provider) type service that realizes the processing function only by the execution instruction and result acquisition. It is good. Note that the program in this embodiment includes information that is used for processing by an electronic computer and that conforms to the program (data that is not a direct command to the computer but has a property that defines the processing of the computer).
また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、ハードウェアエンティティを構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。 In this embodiment, a hardware entity is configured by executing a predetermined program on a computer. However, at least a part of these processing contents may be realized by hardware.
Claims (5)
前記木構造に基づいて、他の文節を受けていない文節を一部、または全部取り除いて、新たな文を生成する文生成部を含む
学習データ生成装置。 A tree structure generation unit that reads sentence data divided for each word and dependency data between clauses of the sentence data by a predetermined length, and generates a tree structure representing the dependency relation of the sentence data of the predetermined length When,
A learning data generation device including a sentence generation unit that generates a new sentence by removing a part or all of a phrase that has not received another phrase based on the tree structure.
前記木構造に基づいて、他の文節を受けていない文節を一部、または全部取り除いて、新たな文を生成する文生成部と、
前記生成された文を用いて言語モデルを学習する言語モデル学習部を含む
言語モデル学習装置。 A tree structure generation unit that reads sentence data divided for each word and dependency data between clauses of the sentence data by a predetermined length, and generates a tree structure representing the dependency relation of the sentence data of the predetermined length When,
Based on the tree structure, a sentence generation unit that generates a new sentence by removing some or all of the phrases that have not received other phrases;
A language model learning apparatus including a language model learning unit that learns a language model using the generated sentence.
前記学習データ生成装置は、
単語毎に区切られた文章データと前記文章データの文節間の係り受けデータを所定の長さ読み込んで、前記所定の長さの文章データの係り受け関係を表す木構造を生成するステップと、
前記木構造に基づいて、他の文節を受けていない文節を一部、または全部取り除いて、新たな文を生成するステップを実行する
学習データ生成方法。 A learning data generation method executed by a learning data generation device,
The learning data generation device includes:
Reading dependency data between sentence data divided into words and clauses of the sentence data with a predetermined length, and generating a tree structure representing a dependency relation of the sentence data with the predetermined length;
A learning data generation method for executing a step of generating a new sentence by removing a part or all of a phrase that has not received another phrase based on the tree structure.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015060664A JP2016180849A (en) | 2015-03-24 | 2015-03-24 | Learning data generation unit, language model learning unit, learning data generation method and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015060664A JP2016180849A (en) | 2015-03-24 | 2015-03-24 | Learning data generation unit, language model learning unit, learning data generation method and program |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2016180849A true JP2016180849A (en) | 2016-10-13 |
Family
ID=57132524
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2015060664A Pending JP2016180849A (en) | 2015-03-24 | 2015-03-24 | Learning data generation unit, language model learning unit, learning data generation method and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2016180849A (en) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010160645A (en) * | 2009-01-07 | 2010-07-22 | Toshiba Corp | Document processing program and document processor |
JP2014002257A (en) * | 2012-06-18 | 2014-01-09 | Nippon Telegr & Teleph Corp <Ntt> | Language model generation apparatus, method thereof and program |
JP2014056499A (en) * | 2012-09-13 | 2014-03-27 | Nippon Telegr & Teleph Corp <Ntt> | Interactive summary generation device, method and program |
-
2015
- 2015-03-24 JP JP2015060664A patent/JP2016180849A/en active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010160645A (en) * | 2009-01-07 | 2010-07-22 | Toshiba Corp | Document processing program and document processor |
JP2014002257A (en) * | 2012-06-18 | 2014-01-09 | Nippon Telegr & Teleph Corp <Ntt> | Language model generation apparatus, method thereof and program |
JP2014056499A (en) * | 2012-09-13 | 2014-03-27 | Nippon Telegr & Teleph Corp <Ntt> | Interactive summary generation device, method and program |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2017045453A (en) | Document-specific gazetteers for named entity recognition | |
US20220092252A1 (en) | Method for generating summary, electronic device and storage medium thereof | |
US20180246867A1 (en) | Unified text analytics annotator development life cycle combining rule-based and machine learning based techniques | |
US20160188569A1 (en) | Generating a Table of Contents for Unformatted Text | |
CN105446986B (en) | Method and apparatus for handling web page | |
US7725306B2 (en) | Efficient phrase pair extraction from bilingual word alignments | |
US8880526B2 (en) | Phrase clustering | |
US9984064B2 (en) | Reduction of memory usage in feature generation | |
JP2019082931A (en) | Retrieval device, similarity calculation method, and program | |
EP3598321A1 (en) | Method for parsing natural language text with constituent construction links | |
JP5564705B2 (en) | Sentence structure analyzing apparatus, sentence structure analyzing method, and sentence structure analyzing program | |
CN109960815A (en) | A kind of creation method and system of nerve machine translation NMT model | |
US8996357B2 (en) | Method for generating diagrams, and information processing apparatus for same | |
CN112784009A (en) | Subject term mining method and device, electronic equipment and storage medium | |
CA2561087A1 (en) | Induction of grammar rules | |
JP2011227749A (en) | Abbreviation and full-length word restoration device and method thereof, and program | |
WO2020012813A1 (en) | Information processing device, information processing method, and program | |
JP6486789B2 (en) | Speech recognition apparatus, speech recognition method, and program | |
JP2016180849A (en) | Learning data generation unit, language model learning unit, learning data generation method and program | |
US20200004784A1 (en) | Index generation method, data retrieval method, apparatus of index generation | |
JP2017219637A (en) | Speech recognition device, speech recognition method and program | |
US7865489B2 (en) | System and computer program product for discovering design documents | |
JP6559625B2 (en) | Enhanced position prediction apparatus, enhanced position prediction method, program | |
US11960626B2 (en) | Generalization hierarchy set generation apparatus, generalization hierarchy set generation method, and program | |
JP5980143B2 (en) | Pose assignment model generation device, pose assignment model generation method, pose assignment device, pose assignment method, program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20170210 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20180126 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20180206 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20180731 |