JP2017058534A - Language model creation device, language model creation method, and program - Google Patents

Language model creation device, language model creation method, and program Download PDF

Info

Publication number
JP2017058534A
JP2017058534A JP2015183630A JP2015183630A JP2017058534A JP 2017058534 A JP2017058534 A JP 2017058534A JP 2015183630 A JP2015183630 A JP 2015183630A JP 2015183630 A JP2015183630 A JP 2015183630A JP 2017058534 A JP2017058534 A JP 2017058534A
Authority
JP
Japan
Prior art keywords
language model
map information
word
information
storage unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2015183630A
Other languages
Japanese (ja)
Other versions
JP6443843B2 (en
Inventor
亮 増村
Akira Masumura
亮 増村
浩和 政瀧
Hirokazu Masataki
浩和 政瀧
隆伸 大庭
Takanobu Oba
隆伸 大庭
彰則 伊藤
Akinori Ito
彰則 伊藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tohoku University NUC
Nippon Telegraph and Telephone Corp
Original Assignee
Tohoku University NUC
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tohoku University NUC, Nippon Telegraph and Telephone Corp filed Critical Tohoku University NUC
Priority to JP2015183630A priority Critical patent/JP6443843B2/en
Publication of JP2017058534A publication Critical patent/JP2017058534A/en
Application granted granted Critical
Publication of JP6443843B2 publication Critical patent/JP6443843B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Complex Calculations (AREA)
  • Machine Translation (AREA)

Abstract

PROBLEM TO BE SOLVED: To make accuracy of language co-occur information high.SOLUTION: A map information storage unit 1 stores map information structured by associating a word representing a place name with geographical positional information. A language model storage unit 2 stores a language model for outputting prediction probability of an input word. A map information language model creation unit 3 uses the map information to create a map information language model for outputting a geographical distance between place names represented by two input words. A language model integration unit 5 creates an integrated language model formed by integrating the language model with the map information language model.SELECTED DRAWING: Figure 1

Description

この発明は、自然言語処理などで用いられる言語モデルを作成する技術に関する。   The present invention relates to a technique for creating a language model used in natural language processing or the like.

例えば、音声認識や機械翻訳では、言語的な予測のために言語モデルが必要である。言語モデルは、言語的なつながりの良さを計測するために利用されるものであり、その性能が音声認識や機械翻訳の性能を左右する。これまで、様々な種類の言語モデルが提案されている。   For example, speech recognition and machine translation require a language model for linguistic prediction. The language model is used to measure the goodness of linguistic connections, and its performance affects the performance of speech recognition and machine translation. So far, various kinds of language models have been proposed.

言語モデルは基本的にテキストから言語的なつながりを獲得する。テキストから言語的なつながりを獲得する手段は、大きく2つある。   A language model basically acquires linguistic connections from text. There are two main means of acquiring linguistic connections from text.

1つめは単語連鎖情報から言語的なつながりを獲得する枠組みである。代表的な言語モデルであるN-gram言語モデルであれば、単語N個組の頻度がテキスト上に何回出現するかを調べて、直前のN-1単語wi-N+1,…,wi-1から現在の単語wiの予測確率P(wi|wi-N+1,…,wi-1)を構成することで言語的なつながりを定義する。N-gram言語モデルの学習方法は公知の技術であり、例えば、非特許文献1などに記載されている。 The first is a framework for acquiring linguistic connections from word chain information. In the case of the N-gram language model, which is a typical language model, it is examined how many times the frequency of the N word set appears on the text, and the immediately preceding N-1 word w i-N + 1 , ..., A linguistic connection is defined by constructing a prediction probability P (w i | w i−N + 1 ,..., w i−1 ) of the current word w i from w i−1 . The learning method of the N-gram language model is a known technique and is described in Non-Patent Document 1, for example.

2つめは単語共起情報から言語的なつながりを獲得する枠組みである。例えばトリガーモデルでは、ある単語がドキュメントという単位の中でどんな単語と共起するかを調べ、ある単語waが出たときにある単語wbが出現する確率P(wb|wa)をモデル化する。単語共起情報に関するモデルは、単語連鎖とは異なり、長距離の情報を反映できる。 The second is a framework for acquiring linguistic connections from word co-occurrence information. For example, in the trigger model, we investigate what word a word co-occurs in a document unit, and determine the probability P (w b | w a ) that a word w b appears when a word w a appears. Model. Unlike the word chain, the model for word co-occurrence information can reflect long-distance information.

高精度な言語モデルを構築するためには、これらの枠組みを代表として、テキストから得られる様々な情報を組み合わせて、短距離の単語連鎖情報と長距離の単語共起情報とを利用して言語的なつながりの良さを計測する。   In order to build a high-accuracy language model, these frameworks are used as representatives to combine various information obtained from text and use short-distance word chain information and long-distance word co-occurrence information. The goodness of social connections.

北研二著、「言語と計算(4) 確率的言語モデル」、東京大学出版会、1999年11月、pp. 57-62Kitakenji, “Language and Computation (4) Stochastic Language Model”, The University of Tokyo Press, November 1999, pp. 57-62

既存の単語共起情報を獲得する枠組みの課題は、共起情報を獲得するためには大規模なドキュメント集合を必要とする点である。そして、ドキュメントは対象とするタスク(例えば、コンタクトセンタ音声認識用、特許翻訳用など)に適合したドキュメントである必要がある。タスクに適合したドキュメントは大量に集めることができない場合が多く、獲得できる共起情報が少なくなってしまうと、言語制約のロバストネスに欠けた言語モデルになってしまう。この問題は、一般的に言語モデルにおけるデータスパースネス問題と呼ばれる。   A problem of the framework for acquiring existing word co-occurrence information is that a large-scale document set is required to acquire the co-occurrence information. The document needs to be a document suitable for a target task (for example, for contact center speech recognition, patent translation, etc.). In many cases, a large amount of documents suitable for a task cannot be collected. If the amount of co-occurrence information that can be acquired decreases, the language model lacks the robustness of language constraints. This problem is generally called the data sparseness problem in language models.

この発明の目的は、このような点に鑑みて、言語共起情報を高精度化することができる言語モデル作成技術を提供することである。   In view of the above, an object of the present invention is to provide a language model creation technique capable of improving the accuracy of language co-occurrence information.

上記の課題を解決するために、この発明の言語モデル作成装置は、地名を表す単語と地理的な位置情報とが関連付けて構造化された地図情報を記憶する地図情報記憶部と、入力された単語の予測確率を出力する言語モデルを記憶する言語モデル記憶部と、地図情報を用いて、入力された二つの単語が表す地名間の地理的な距離を出力する地図情報言語モデルを生成する地図情報言語モデル生成部と、言語モデルと地図情報言語モデルとを統合した統合言語モデルを生成する言語モデル統合部と、を含む。   In order to solve the above-described problem, a language model creation device according to the present invention is inputted with a map information storage unit that stores map information structured by associating a word representing a place name with geographical position information, A map that generates a map information language model that outputs a geographical distance between place names represented by two input words, using a language model storage unit that stores a language model that outputs a word prediction probability, and map information An information language model generation unit; and a language model integration unit that generates an integrated language model obtained by integrating the language model and the map information language model.

この発明の言語モデル作成技術によれば、地名を表す単語に対して地理的な距離を考慮して予測確率を算出するため、言語共起情報を高精度化することができる。   According to the language model creation technique of the present invention, since the prediction probability is calculated in consideration of the geographical distance for the word representing the place name, the language co-occurrence information can be highly accurate.

図1は、言語モデル作成装置の機能構成を例示する図である。FIG. 1 is a diagram illustrating a functional configuration of a language model creation device. 図2は、言語モデル作成方法の処理手続きを例示する図である。FIG. 2 is a diagram illustrating a processing procedure of the language model creation method.

この発明は、地図上の地名間の距離情報を利用することで、言語的な予測を促す言語モデルを構築するための技術である。上述した共起情報をモデル化する際のデータスパースネスの課題に対して、例えばカーナビ等の検索システムや地域情報検索システムなど、地名が重要となるタスクに対象を絞り解決手段を提示することができる。具体的には、地図という構造化された情報を言語モデルの言語予測に導入する。地図情報からは地名間の距離情報を取得することができる。そして、これらの情報が日本全国、そして世界中について構造化されたデータがすでに整っている。例えばカーナビ内部に含まれるシステムでは、これらの地図情報が構造化されており、簡単に取り出すことができる。   The present invention is a technique for constructing a language model that promotes linguistic prediction by using distance information between place names on a map. To solve the problem of data sparseness when modeling the co-occurrence information described above, for example, a search system such as a car navigation system or a local information search system can be used to focus on tasks where place names are important and present a solution. it can. Specifically, structured information called maps is introduced into language prediction of language models. Distance information between place names can be acquired from the map information. And this information is already structured in Japan and around the world. For example, in a system included in a car navigation system, such map information is structured and can be easily extracted.

地名間の距離情報が言語モデルにどのように役立つかを説明する。距離が近い地名は同じ会話の中で比較的出現し易いといった制約を与えることができると考えられる。例えば、いま“新宿”に関連することが話題にあがっていた場合、例えば“渋谷”や“池袋”といった距離的に近い地名を表す単語が話題に上がりやすく、例えば“稚内”や“那覇”といった距離的に遠い地名を表す単語が話題に上がりにくい。このような言語制約を様々な地名間について導入することで、言語モデルのデータスパースネスを解決できると考えられる。   Explain how distance information between place names is useful for language models. It is considered that place names that are close to each other can be constrained to appear relatively easily in the same conversation. For example, if a topic related to “Shinjuku” is currently being discussed, words such as “Shibuya” and “Ikebukuro” that represent place names that are close in distance are likely to rise to the topic, such as “Wakkanai” and “Naha”. Words representing place names that are far away are less likely to be talked about. It is considered that the data sparseness of the language model can be solved by introducing such language constraints between various place names.

以下、この発明の実施の形態について詳細に説明する。なお、図面中において同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。   Hereinafter, embodiments of the present invention will be described in detail. In addition, the same number is attached | subjected to the component which has the same function in drawing, and duplication description is abbreviate | omitted.

実施形態の言語モデル作成装置は、図1に示すように、地図情報記憶部1、言語モデル記憶部2、地図情報言語モデル生成部3、地図情報言語モデル記憶部4、言語モデル統合部5、および統合言語モデル記憶部6を含む。この言語モデル作成装置が後述する各ステップの処理を行うことにより実施形態の言語モデル作成方法が実現される。   As shown in FIG. 1, the language model creation device of the embodiment includes a map information storage unit 1, a language model storage unit 2, a map information language model generation unit 3, a map information language model storage unit 4, a language model integration unit 5, And an integrated language model storage unit 6. The language model creation method of the embodiment is realized by the processing of each step described later by this language model creation device.

言語モデル作成装置は、例えば、中央演算処理装置(CPU: Central Processing Unit)、主記憶装置(RAM: Random Access Memory)などを有する公知又は専用のコンピュータに特別なプログラムが読み込まれて構成された特別な装置である。言語モデル作成装置は、例えば、中央演算処理装置の制御のもとで各処理を実行する。言語モデル作成装置に入力されたデータや各処理で得られたデータは、例えば、主記憶装置に格納され、主記憶装置に格納されたデータは必要に応じて読み出されて他の処理に利用される。また、言語モデル作成装置の各処理部の少なくとも一部が集積回路等のハードウェアによって構成されていてもよい。言語モデル作成装置の各記憶部は、例えば、RAM(Random Access Memory)などの主記憶装置、ハードディスクや光ディスクもしくはフラッシュメモリ(Flash Memory)のような半導体メモリ素子により構成される補助記憶装置、またはリレーショナルデータベースやキーバリューストアなどのミドルウェアにより構成することができる。   The language model creation device is, for example, a special program configured by reading a special program into a known or dedicated computer having a central processing unit (CPU), a main memory (RAM), and the like. Device. For example, the language model creation device executes each process under the control of the central processing unit. Data input to the language model creation device and data obtained in each process are stored in the main storage device, for example, and the data stored in the main storage device is read out as necessary and used for other processing. Is done. In addition, at least a part of each processing unit of the language model creation device may be configured by hardware such as an integrated circuit. Each storage unit of the language model creation device is, for example, a main storage device such as a RAM (Random Access Memory), an auxiliary storage device configured by a semiconductor memory element such as a hard disk, an optical disk, or a flash memory, or a relational It can be configured with middleware such as a database or key-value store.

地図情報記憶部1には、構造化された地図情報が記憶されている。構造化された地図情報は各地名などが電子化されたデータであり、地名間の距離関係や地名の住所を取得可能なデータである。具体的には、地名を表す単語とその地名の地理的な位置情報とが関連付けられた情報であり、指定された地名の座標もしくは住所を得ることが可能となっている。例えば、カーナビゲーションシステムでは、この条件を満たす構造化された地図情報が用いられている。その他の例では、Web上で利用可能な“Google(登録商標)マップ”のような地図情報は、構造化された地図情報に該当する。   The map information storage unit 1 stores structured map information. The structured map information is data in which names of places are digitized, and is data that can acquire the distance relationship between place names and addresses of place names. Specifically, it is information in which a word representing a place name is associated with geographical location information of the place name, and the coordinates or address of the designated place name can be obtained. For example, in a car navigation system, structured map information that satisfies this condition is used. In another example, map information such as “Google (registered trademark) map” available on the Web corresponds to structured map information.

言語モデル記憶部2には、通常の言語モデルが記憶されている。通常の言語モデルは、従来から用いられてきた言語モデルであり、入力された単語の予測確率を出力するモデルである。この実施形態では、N-gram言語モデルを例として説明する。   The language model storage unit 2 stores a normal language model. The normal language model is a language model that has been used conventionally, and is a model that outputs the prediction probability of an input word. In this embodiment, an N-gram language model will be described as an example.

図2を参照して、実施形態の言語モデル作成方法の処理手続きを説明する。   With reference to FIG. 2, the processing procedure of the language model creation method of the embodiment will be described.

ステップS1において、地図情報言語モデル生成部3は、地図情報記憶部1に記憶された地図情報を用いて、二つの地名を表す単語を入力とし、その地名間の地理的な距離を出力する地図情報言語モデルを生成する。生成した地図情報言語モデルは、地図情報言語モデル記憶部4へ記憶される。   In step S1, the map information language model generation unit 3 uses the map information stored in the map information storage unit 1 as input to input a word representing two place names, and outputs a geographical distance between the place names. Generate an information language model. The generated map information language model is stored in the map information language model storage unit 4.

以下、地図情報言語モデルの作成方法を詳細に説明する。最初に、構造化された地図情報において位置情報を獲得可能なすべての場所の地名を列挙する。これは例えば、“東京タワー”、“フジテレビ”などの地名である。なお、あらかじめ音声認識や機械翻訳のタスクを絞ることができる場合は、“東京都の範囲内”や“新潟市の範囲内”など、地名を取得する地理的な範囲を限定してもよい。ここでは、列挙した地名がM個であったものとする。次に、列挙したM個の地名に対して、すべての二つ組について、構造化された地図情報から距離を計算する。具体的には、選択した二地点の座標情報に基づいて、その二地点間の距離を計算する。二地点の緯度および経度から距離を算出する方法は公知であるため、ここでは詳細な説明は省略する。すべての二地点間の距離を算出すると、最終的にM*(M-1)*1/2個の距離が得られることとなる。この距離に関する情報が地図情報言語モデルとなる。つまり、ある地点の名前waとある地点の名前wbとの地理的近さd(wa, wb)が地図情報言語モデルである。 Hereinafter, a method for creating a map information language model will be described in detail. First, place names of all places where position information can be acquired in the structured map information are listed. This is, for example, a place name such as “Tokyo Tower” or “Fuji Television”. If the task of speech recognition or machine translation can be narrowed down in advance, the geographical range for acquiring the place name may be limited, such as “within Tokyo” or “within Niigata City”. Here, it is assumed that there are M listed place names. Next, for the M place names listed, distances are calculated from structured map information for all two pairs. Specifically, the distance between the two points is calculated based on the coordinate information of the two selected points. Since the method for calculating the distance from the latitude and longitude of the two points is well known, detailed description is omitted here. When the distance between all two points is calculated, M * (M-1) * 1/2 distances are finally obtained. Information about this distance becomes a map information language model. That is, the geographical information d (w a , w b ) between the name w a of a point and the name w b of a point is the map information language model.

ステップS2において、言語モデル統合部5は、言語モデル記憶部2に記憶された通常の言語モデルと、地図情報言語モデル記憶部4に記憶された地図情報言語モデルとを統合して、統合言語モデルを生成する。生成した統合言語モデルは、統合言語モデル記憶部6に記憶される。   In step S2, the language model integration unit 5 integrates the normal language model stored in the language model storage unit 2 and the map information language model stored in the map information language model storage unit 4 to obtain an integrated language model. Is generated. The generated integrated language model is stored in the integrated language model storage unit 6.

以下、統合言語モデルの作成方法を詳細に説明する。N-gram言語モデルでは、直前のN-1単語wi-N+1,…,wi-1から現在の単語wiの予測確率P(wi|wi-N+1,…,wi-1)を構成している。これに、地図情報言語モデルを統合するためには、コンテキスト制約が必要となる。コンテキスト制約とは、N-gram言語モデルであれば、直前のN-1単語となる。地図情報言語モデルのコンテキスト制約は様々に与えることができる。ここでは簡単のために、wiのコンテキストをhiとする。例えば地図情報言語モデルのコンテキスト制約を直前の20単語とすると、hiはwi-21,…,wi-1と与えられる。このときの地図情報言語モデルから得られるスコアをd(wi|hi)とおくと、統合言語モデルS(wi|hi)は次式の形で与えられる。 Hereinafter, a method for creating an integrated language model will be described in detail. In the N-gram language model, the prediction probability P (w i | w i-N + 1 , ..., w of the current word w i from the immediately preceding N-1 word w i-N + 1 , ..., w i-1. i-1 ). In order to integrate the map information language model, context constraints are required. The context constraint is the immediately preceding N-1 word in the N-gram language model. The context constraints of the map information language model can be given in various ways. Here, for the sake of simplicity, the context of w i is assumed to be h i . For example, if the 20 words of the immediately preceding context constraints of map information language model, h i is w i-21, ..., given the w i-1. If the score obtained from the map information language model at this time is d (w i | h i ), the integrated language model S (w i | h i ) is given by the following equation.

Figure 2017058534
Figure 2017058534

ここで、αは統合重みである。統合重みは人手で与える。統合重みは音声認識や機械翻訳の性能が高くなるように設定すればよいが、例えば0.0001などと設定できる。 Here, α is an integrated weight. The integration weight is given manually. The integration weight may be set so that the performance of speech recognition and machine translation is high, but can be set to 0.0001, for example.

実際のd(wi|hi)の求め方について説明する。前述の例と同様に、地図情報言語モデルのコンテキスト制約を直前の20単語とする。このとき、d(wi|hi)は次式で与えられる。 An actual method for obtaining d (w i | h i ) will be described. As in the previous example, the context constraint of the map information language model is the previous 20 words. At this time, d (w i | h i ) is given by the following equation.

Figure 2017058534
Figure 2017058534

つまり、コンテキスト制約中のすべての単語に対して地図情報言語モデルでモデル化した値を求め、その値を総和する。なお、wiが地図情報言語モデルの中のM単語に含まれない場合は、d(wi│hi)は0になる。また、wkが地図情報言語モデルの中のM単語に含まれない場合は、d(wi, wk)は無限大になる。このように構成することで、地図情報言語モデルの中のM単語については、頑健なスコアを付与できる。その結果、この言語モデルを音声認識や機械翻訳で用いることにより性能向上が期待できる。 That is, the values modeled by the map information language model are obtained for all the words in the context constraint, and the values are summed. If w i is not included in the M word in the map information language model, d (w i | h i ) is 0. If w k is not included in the M word in the map information language model, d (w i , w k ) becomes infinite. By configuring in this way, a robust score can be given to the M words in the map information language model. As a result, performance improvement can be expected by using this language model for speech recognition and machine translation.

上述のように構成することにより、この発明の言語モデル作成技術は、地図上の地名間の距離情報を利用した言語制約を導入した言語モデルを構築することができる。これにより、単語共起に関する言語制約のロバストネスを高めることができ、データスパースネスの問題を回避できる。その結果として、この言語モデルをカーナビ等の検索システムや地域情報検索システムなどの地名が重要となるタスクにおいて利用することで、音声認識においてはこれまでよりも高い認識性能が得られ、機械翻訳においてはこれまでよりも高い翻訳性能が得られる。   By configuring as described above, the language model creation technique of the present invention can construct a language model in which language constraints using distance information between place names on a map are introduced. Thereby, the robustness of the language restriction regarding word co-occurrence can be increased, and the problem of data sparseness can be avoided. As a result, this language model can be used in tasks where place names are important, such as car navigation systems and local information retrieval systems, so that speech recognition can achieve higher recognition performance than before. Provides better translation performance than ever.

この発明は上述の実施形態に限定されるものではなく、この発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。上記実施形態において説明した各種の処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。   The present invention is not limited to the above-described embodiment, and it goes without saying that modifications can be made as appropriate without departing from the spirit of the present invention. The various processes described in the above embodiment may be executed not only in time series according to the order of description, but also in parallel or individually as required by the processing capability of the apparatus that executes the processes or as necessary.

[プログラム、記録媒体]
上記実施形態で説明した各装置における各種の処理機能をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記各装置における各種の処理機能がコンピュータ上で実現される。
[Program, recording medium]
When various processing functions in each device described in the above embodiment are realized by a computer, the processing contents of the functions that each device should have are described by a program. Then, by executing this program on a computer, various processing functions in each of the above devices are realized on the computer.

この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。   The program describing the processing contents can be recorded on a computer-readable recording medium. As the computer-readable recording medium, for example, any recording medium such as a magnetic recording device, an optical disk, a magneto-optical recording medium, and a semiconductor memory may be used.

また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD-ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。   This program is distributed by selling, transferring, or lending a portable recording medium such as a DVD or CD-ROM in which the program is recorded. Furthermore, the program may be distributed by storing the program in a storage device of the server computer and transferring the program from the server computer to another computer via a network.

このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。   A computer that executes such a program first stores, for example, a program recorded on a portable recording medium or a program transferred from a server computer in its own storage device. When executing the process, the computer reads a program stored in its own recording medium and executes a process according to the read program. As another execution form of the program, the computer may directly read the program from a portable recording medium and execute processing according to the program, and the program is transferred from the server computer to the computer. Each time, the processing according to the received program may be executed sequentially. A configuration in which the above-described processing is executed by a so-called ASP (Application Service Provider) type service that realizes a processing function only by an execution instruction and result acquisition without transferring a program from the server computer to the computer. It is good. Note that the program in this embodiment includes information that is used for processing by an electronic computer and that conforms to the program (data that is not a direct command to the computer but has a property that defines the processing of the computer).

また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、本装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。   In this embodiment, the present apparatus is configured by executing a predetermined program on a computer. However, at least a part of these processing contents may be realized by hardware.

1 地図情報記憶部
2 言語モデル記憶部
3 地図情報言語モデル生成部
4 地図情報言語モデル記憶部
5 言語モデル統合部
6 統合言語モデル記憶部
1 Map information storage unit 2 Language model storage unit 3 Map information language model generation unit 4 Map information language model storage unit 5 Language model integration unit 6 Integrated language model storage unit

Claims (4)

地名を表す単語と地理的な位置情報とが関連付けて構造化された地図情報を記憶する地図情報記憶部と、
入力された単語の予測確率を出力する言語モデルを記憶する言語モデル記憶部と、
上記地図情報を用いて、入力された二つの単語が表す地名間の地理的な距離を出力する地図情報言語モデルを生成する地図情報言語モデル生成部と、
上記言語モデルと上記地図情報言語モデルとを統合した統合言語モデルを生成する言語モデル統合部と、
を含む言語モデル作成装置。
A map information storage unit for storing map information structured by associating a word representing a place name with geographical location information;
A language model storage unit that stores a language model that outputs a predicted probability of the input word;
A map information language model generating unit that generates a map information language model that outputs a geographical distance between the place names represented by the two input words using the map information;
A language model integration unit for generating an integrated language model obtained by integrating the language model and the map information language model;
Language model creation device including
請求項1に記載の言語モデル作成装置であって、
上記言語モデルは、直前のN-1単語wi-N+1,…,wi-1から現在の単語wiの予測確率P(wi|wi-N+1,…,wi-1)を求めるN-gram言語モデルであり、
上記地図情報言語モデルは、地名を表す単語waと地名を表す単語wbとの地理的な距離d(wa, wb)を求める言語モデルであり、
上記統合言語モデルは、hiをM-1個の単語wi-M+1,…,wi-1を含むコンテキスト制約とし、d(wi|hi)を現在の単語wiとコンテキスト制約hiに含まれる各単語wi-M+1,…,wi-1との地理的な距離の総和とし、αをあらかじめ定めた統合重みとし、次式で表されるものである、
Figure 2017058534

言語モデル作成装置。
The language model creation device according to claim 1,
The above language model is based on the prediction probability P (w i | w i-N + 1 , ..., w i- of the current word w i from the previous N-1 word w i-N + 1 , ..., w i-1. 1 ) N-gram language model for
The map information language model is a language model for obtaining a geographical distance d (w a , w b ) between a word w a representing a place name and a word w b representing a place name,
In the integrated language model, h i is a context constraint including M−1 words w i−M + 1 ,..., W i−1 , and d (w i | h i ) is a current word w i and a context. The sum of the geographical distances from the words w i-M + 1 ,..., W i-1 included in the constraint h i , α is a predetermined integrated weight, and is expressed by the following equation:
Figure 2017058534

Language model creation device.
地図情報記憶部に、地名を表す単語と地理的な位置情報とが関連付けて構造化された地図情報が記憶されており、
言語モデル記憶部に、入力された単語の予測確率を出力する言語モデルが記憶されており、
地図情報言語モデル生成部が、上記地図情報を用いて、入力された二つの単語が表す地名間の地理的な距離を出力する地図情報言語モデルを生成する地図情報言語モデル生成ステップと、
言語モデル統合部が、上記言語モデルと上記地図情報言語モデルとを統合した統合言語モデルを生成する言語モデル統合ステップと、
を含む言語モデル作成方法。
The map information storage unit stores map information that is structured by associating words representing place names with geographical location information,
The language model storage unit stores a language model that outputs the predicted probability of the input word,
A map information language model generation unit that generates a map information language model that outputs a geographical distance between place names represented by the two input words, using the map information;
A language model integration unit for generating an integrated language model in which the language model integration unit integrates the language model and the map information language model;
Language model creation method including
請求項1または2に記載の言語モデル作成装置としてコンピュータを機能させるためのプログラム。   A program for causing a computer to function as the language model creation device according to claim 1.
JP2015183630A 2015-09-17 2015-09-17 Language model creation device, language model creation method, and program Active JP6443843B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2015183630A JP6443843B2 (en) 2015-09-17 2015-09-17 Language model creation device, language model creation method, and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2015183630A JP6443843B2 (en) 2015-09-17 2015-09-17 Language model creation device, language model creation method, and program

Publications (2)

Publication Number Publication Date
JP2017058534A true JP2017058534A (en) 2017-03-23
JP6443843B2 JP6443843B2 (en) 2018-12-26

Family

ID=58391534

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015183630A Active JP6443843B2 (en) 2015-09-17 2015-09-17 Language model creation device, language model creation method, and program

Country Status (1)

Country Link
JP (1) JP6443843B2 (en)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050080632A1 (en) * 2002-09-25 2005-04-14 Norikazu Endo Method and system for speech recognition using grammar weighted based upon location information
JP2005173390A (en) * 2003-12-12 2005-06-30 Canon Inc Speech recognition device and method
WO2005122143A1 (en) * 2004-06-08 2005-12-22 Matsushita Electric Industrial Co., Ltd. Speech recognition device and speech recognition method

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050080632A1 (en) * 2002-09-25 2005-04-14 Norikazu Endo Method and system for speech recognition using grammar weighted based upon location information
JP2005173390A (en) * 2003-12-12 2005-06-30 Canon Inc Speech recognition device and method
WO2005122143A1 (en) * 2004-06-08 2005-12-22 Matsushita Electric Industrial Co., Ltd. Speech recognition device and speech recognition method

Also Published As

Publication number Publication date
JP6443843B2 (en) 2018-12-26

Similar Documents

Publication Publication Date Title
US11675975B2 (en) Word classification based on phonetic features
US20130238332A1 (en) Automatic input signal recognition using location based language modeling
CN111325022B (en) Method and device for identifying hierarchical address
JP5185089B2 (en) Content position estimation device
Wang et al. Enhancing spatial and textual analysis with EUPEG: An extensible and unified platform for evaluating geoparsers
US20200234132A1 (en) Compound model scaling for neural networks
WO2019226954A1 (en) Training sequence generation neural networks using quality scores
WO2014163977A1 (en) Systems, methods and computer-readable media for interpreting geographical search queries
CN113947147A (en) Training method and positioning method of target map model and related devices
Drymonas et al. Geospatial route extraction from texts
CN114579882A (en) Address query method, method for obtaining geocoding prediction model and corresponding device
CN117473056A (en) Question answering method and device, electronic equipment and storage medium
JP6443843B2 (en) Language model creation device, language model creation method, and program
Shields et al. Advances in simulation-based uncertainty quantification and reliability analysis
Laptev et al. Sightseeing application based on location marking and convolutional neural network building recognition
JP2014229275A (en) Query answering device and method
KR102036350B1 (en) Method, apparatus and computer program for providing translation result, method, apparatus and computer program for displaying translation result
Jo et al. Constructing national geospatial big data platform: current status and future direction
CN114579883A (en) Address query method, method for obtaining address vector representation model and corresponding device
Both et al. A Question Answering System for retrieving German COVID-19 data driven and quality-controlled by Semantic Technology.
Lautenschlager et al. A Statistical Approach to the Subnational Geolocation of Event Data
Hall et al. Exploring the Relationship Between" Informal Standards" and Contributor Practice in OpenStreetMap
Katragadda et al. An unsupervised approach to identify location based on the content of user’s tweet history
KR20200142851A (en) Device, method and computer program for machine translation of geograohic name
Fernandez et al. Core Building Blocks: Next Gen Geo Spatial GPT Application

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20170531

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20170531

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20180420

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20180515

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180612

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20181113

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20181119

R150 Certificate of patent or registration of utility model

Ref document number: 6443843

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250