JP5978645B2 - Information processing apparatus, data display apparatus, and program - Google Patents
Information processing apparatus, data display apparatus, and program Download PDFInfo
- Publication number
- JP5978645B2 JP5978645B2 JP2012035796A JP2012035796A JP5978645B2 JP 5978645 B2 JP5978645 B2 JP 5978645B2 JP 2012035796 A JP2012035796 A JP 2012035796A JP 2012035796 A JP2012035796 A JP 2012035796A JP 5978645 B2 JP5978645 B2 JP 5978645B2
- Authority
- JP
- Japan
- Prior art keywords
- probability coefficient
- unit
- probability
- pattern
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- User Interface Of Digital Computer (AREA)
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
Description
本発明は、情報処理装置、データ表示装置及びプログラムに関する。 The present invention relates to an information processing device, a data display device, and a program.
複数の単語を含む単語列(原文)を他の言語に翻訳する翻訳装置が知られている。このような翻訳装置は、原文を翻訳するにあたって、原文がどの単語と単語との間(語間)で区切れるか推測して翻訳処理を実行する。 A translation device that translates a word string (original text) including a plurality of words into another language is known. When translating an original sentence, such a translation apparatus performs translation processing by estimating which word (word-to-word) the original sentence is divided.
文書や単語列の区切り方を推測する方法に関連して、特許文献1は予め文書が属する言語の文法規則をプログラミングした構文解析器を用いて文書の区切れ方を推測する技術を提案している。
また、特許文献2は、分かち書きされていない文字列を単語毎に分割する技術を提案している。
In relation to a method for estimating how to separate a document or a word string,
特許文献1の技術では、原文がどの単語と単語との間で区切れるかを推測するために、原文が属する言語の文法規則をプログラミングした構文解析器を用いる。そのため、原文の属する言語毎に構文解析器を多くの開発費用・日数を費やして作成しなくてはならなかった。また、特許文献2は、分かち書きされていない文字列を単語毎に分割する技術を開示しているが、文字列がどの単語と単語との間で区切れているか判別する方法を開示していない。
In the technique of
構文解析器を用いずに文字列がどの単語と単語との間で区切れるかを推測するための技術として、原文と同じカテゴリの単語列がどのように区切られているかを示す教師データから単語と単語との間で区切れる確からしさを求める方法が考えられる。 Words from teacher data indicating how word strings in the same category as the original text are separated as a technique for inferring which words are separated from each other without using a parser There is a method for obtaining the probability of being divided between a word and a word.
しかし、教師データの数や、教師データと解析対象となる文字列との相性によって、教師データから得られた区切り方に係る情報の信頼度は異なる。信頼度が低い区切り方に係る情報を最終結果に強く反映させると、区切り方の精度が下がってしまう。しかしながら、教師データから得られた区切り方に係る情報の信頼度を定め、信頼度の高さを反映した高い精度で単語列を区切ることができる方法は知られていない。 However, depending on the number of teacher data and the compatibility between the teacher data and the character string to be analyzed, the reliability of the information related to the division method obtained from the teacher data differs. If the information related to the separation method with low reliability is strongly reflected in the final result, the accuracy of the separation method is lowered. However, there is no known method that can determine the reliability of the information related to the way of separation obtained from the teacher data and can partition the word string with high accuracy reflecting the high reliability.
本発明は上記事情に鑑みてなされたもので、解析対象となる単語列の区切り方を高い精度で推定して区切ることが出来る情報処理装置、データ表示装置及びプログラムを提供することを目的とする。 The present invention has been made in view of the above circumstances, and an object thereof is to provide an information processing apparatus, a data display apparatus, and a program capable of estimating and dividing a word string to be analyzed with high accuracy. .
上記目的を達成するため、本発明に係る情報処理装置は、
解析対象となる単語列を取得する取得部と、
前記取得部が取得した単語列に含まれる単語から構成される部分列を抽出する抽出部と、
前記抽出部が抽出した部分列に含まれる単語と単語との間である語間のそれぞれについて、その語間で前記取得部が取得した単語列が区切れる場合と区切れない場合とに対応する区切パターンを、複数生成するパターン生成部と、
前記抽出部が抽出した部分列のそれぞれについて、前記パターン生成部が生成した複数の区切パターンに対応する区切れ方で区切れる確からしさである区切確率係数を、前記部分列を含む教師単語列において各区切パターン毎に区切確率係数が記憶されている確率係数記憶部から読み出すことで取得する確率係数取得部と、
前記確率係数取得部が取得した確率係数の信頼度を定義する信頼度定義部と、
前記確率係数取得部により取得された部分列のそれぞれの区切パターンの区切確率係数を前記信頼度定義部が定義した信頼度に基づいて補正する補正部と、
前記補正部で補正される区切確率係数を用いて、前記確率係数取得部により取得された部分列のそれぞれの区切パターンの区切確率係数と、当該部分列の1つ前の部分列であって当該部分列と共通する区切パターンを有する部分列の区切確率係数の大きい方とを乗算して、当該部分列までのルート確率係数を算出するルート確率係数算出部と、
前記ルート確率係数算出部により前記抽出部が抽出した末尾の部分列までのルート確率係数が算出された後に、最も大きなルート確率係数が得られたルートを選択する選択部と、
前記選択部が選択したルートに対応する区切パターンの区切り方で、前記取得部が取得した単語列を分割する分割部と、
を備えることを特徴とする。
In order to achieve the above object, an information processing apparatus according to the present invention provides:
And obtained part preparative you get the word sequence to be analyzed,
An extraction unit for extracting a partial sequence consisting of words contained in the prior word sequence Quito resulting unit is acquired,
For each inter-word is between words and words included in the subsequence extracted by the extracting unit, corresponds to the case where not separate them and if word strings before Quito resulting unit is acquired between the word Kugireru A pattern generation unit for generating a plurality of delimiter patterns,
For each partial sequence extracted by the extraction unit , a delimitation probability coefficient that is a probability of being delimited by a delimitation method corresponding to a plurality of delimiter patterns generated by the pattern generation unit, in the teacher word sequence including the partial sequence A probability coefficient acquisition unit that is acquired by reading from a probability coefficient storage unit in which a division probability coefficient is stored for each division pattern ;
A reliability definition unit that defines the reliability of the probability coefficient acquired by the probability coefficient acquisition unit;
A correction unit that corrects the delimitation probability coefficient of each delimiter pattern of the partial sequence acquired by the probability coefficient acquisition unit based on the reliability defined by the reliability definition unit;
Using the delimitation probability coefficient corrected by the correction unit, the delimitation probability coefficient of each delimiter pattern of the partial sequence acquired by the probability coefficient acquisition unit, and the partial sequence immediately preceding the partial sequence, A route probability coefficient calculation unit that calculates a root probability coefficient to the partial sequence by multiplying the larger one of the partial probability coefficients of the partial sequence having a common partition pattern with the partial sequence;
A selection unit that selects a route from which the largest route probability coefficient is obtained after the route probability coefficient to the last partial sequence extracted by the extraction unit is calculated by the route probability coefficient calculation unit ;
By delimiting towards the division pattern corresponding to the root of the selector selects a dividing unit for dividing the pre-word sequence Quito resulting unit is acquired,
It is characterized by providing.
本発明によれば、解析対象となる単語列の区切り方を高い精度で推定して区切ることが出来る情報処理装置、データ表示装置及びプログラムを提供することができる。 ADVANTAGE OF THE INVENTION According to this invention, the information processing apparatus, data display apparatus, and program which can estimate and divide the word string used as analysis object with high precision can be provided.
以下、本発明を実施するための形態に係るメニュー表示装置を、図を参照して説明する。なお、図中同一又は相当する部分には同一符号を付す。 A menu display device according to an embodiment for carrying out the present invention will be described below with reference to the drawings. In the drawings, the same or corresponding parts are denoted by the same reference numerals.
(実施形態1)
実施形態1に係るメニュー表示装置1は、i)解析対象となる特定のカテゴリに属する文字列(メニュー、献立等)を記載した紙等を撮影する撮影機能、ii)撮影した画像から解析対象となる文字列を認識して抽出する機能、iii)抽出した文字列を解析して単語列に変換する機能、iv)文字列の所定部分(単語間)でメニューが区切れる確率を示す確率係数を出力する機能、v)確率係数がどの程度信頼出来るかを定める機能、vi)確率係数及びその信頼度に基づいて単語列を区切る機能、vii)区切った単語列をそれぞれ表示データに変換する機能、ix)表示データを表示する機能、等を備える。
(Embodiment 1)
The
メニュー表示装置1は図1(a)に示すように画像入力部10と、OCR(Optical Character Reader)20とメニュー解析部30と確率係数出力部40と変換部50と用語辞書記憶部60とを含む情報処理部70と、表示部80と、操作入力部90と、を備える。
As shown in FIG. 1A, the
画像入力部10は、カメラと画像処理部とから構成され、このような物理構成によりメニューを撮影した画像を取得する。画像入力部10は、取得した画像を情報処理部70のOCR20に伝達する。
The
情報処理部70は、物理的には、図1(b)に示すように情報処理部701と、データ記憶部702と、プログラム記憶部703と、入出力部704と、通信部705と、内部バス706と、から構成される。
As shown in FIG. 1B, the
情報処理部701は、CPU(Central Processing Unit)、DSP(Digital Signal Processing)、等から構成され、プログラム記憶部703に記憶されている制御プログラム707に従って、後述するメニュー表示装置1に係る処理を実行する。
The
データ記憶部702は、RAM(Random−Access Memory)等から構成され、情報処理部701の作業領域として用いられる。
The
プログラム記憶部703は、フラッシュメモリ、ハードディスク、等の不揮発性メモリから構成され、情報処理部701の動作を制御する制御プログラム707と、下記に示す処理を実行するためのデータを記憶する。
The
入出力部704は、USB(Universal Serial Bus)やシリアルポートによって情報処理部70に接続された画像入力部10、表示部80、操作入力部90、外部装置等との情報の入出力を制御するI/O部である。
The input /
通信部705は、LAN(Local Area Network)デバイス、モデム等から構成され、LAN回線や通信回線を介して接続された外部機器に情報処理部701の処理結果を送信する。また、外部機器から情報を受信して、情報処理部701に伝達する。
なお、情報処理部701と、データ記憶部702と、プログラム記憶部703と、入出力部704と、通信部705と、は内部バス706によってそれぞれ接続され、情報の送信が可能である。
The
Note that the
情報処理部70は、上記物理構成によりOCR20と、メニュー解析部30と、確率係数出力部40と、変換部50と、用語辞書記憶部60と、として機能する。
The
OCR20は、画像入力部10から伝達された画像の文字を認識し、メニューに記された文字列(料理名等)を取得する。OCR20は、取得した文字列をメニュー解析部30に伝達する。
The
メニュー解析部30は、OCR20から伝達された文字列を単語に分割して単語列Wに変換する。
メニュー解析部30は、単語列Wを構成する単語と単語との間である語間(注目語間)に対して、語間を構成する単語を少なくとも一つ含む部分列(nグラム)を抽出する。nグラムについて定義できる区切パターン(nグラムと、そのnグラムの語間で単語列Wが区切れる場合と区切れない場合に対応する情報と、を含む)を確率係数出力部40に伝達する。
The
The
メニュー解析部30は、確率係数出力部40が出力する、nグラムを含む教師データがその区切パターンで区切れる確からしさを示す係数(確率係数)と、当該確率係数がどのような根拠に基づいているかを示す情報(根拠情報)と、を受け取る。区切パターンの確率係数は、区切確率係数とも言う。nグラムと区切パターンと(区切)確率係数とについては後述する。
メニュー解析部30は、確率係数出力部40から受け取った区切確率係数と根拠情報を用いて、単語列Wを分割して部分列を抽出して変換部50に出力する。メニュー解析部30が実行する具体的な処理については後述する。
The
The
確率係数出力部40はメニュー解析部30から、nグラムとそのnグラムの区切り方を示す区切フラグとを含む区切パターンを伝達される。確率係数出力部40は、教師データがその区切パターンで区切れる確からしさを示す情報を記憶している。確率係数出力部40は、メニュー解析部30から区切パターンを伝達されると、記憶する確率係数リストを参照して区切確率係数を取得して、メニュー解析部30に伝達する。
確率係数出力部40の機能構成と実行する具体的な処理については後述する。
The probability
The functional configuration of the probability
変換部50は用語辞書記憶部60を参照し、メニュー解析部30から伝達された分割された単語列Wを部分列ごとに表示用データに変換する。
具体的には、変換部50は部分列のそれぞれに含まれる単語を、用語辞書記憶部60に伝達し、用語辞書記憶部60からその単語の解説データを取得する。変換部50は、部分列ごとに、原文であるメニューの単語と、その単語の解説データを並べて、表示データを生成する。
変換部50は、生成した表示データを表示部80に伝達する。
The conversion unit 50 refers to the term dictionary storage unit 60 and converts the divided word string W transmitted from the
Specifically, the conversion unit 50 transmits words included in each of the partial strings to the term dictionary storage unit 60 and acquires comment data of the words from the term dictionary storage unit 60. The conversion unit 50 generates display data by arranging the words of the menu that is the original sentence and the explanation data of the words for each partial sequence.
The conversion unit 50 transmits the generated display data to the
用語辞書記憶部60は、教師データに含まれる単語又は単語列と、その単語の解説のためのデータと、を対応付けて登録した用語辞書を記憶する。
用語辞書記憶部60は、変換部50から単語又は単語列を送信されると、記憶する用語辞書においてその単語又は単語列と対応付けられている解説データを変換部50に伝達する。また、その単語又は単語列が用語辞書になかった場合には、その旨を示すemptyデータを送信する。
The term dictionary storage unit 60 stores a term dictionary in which words or word strings included in the teacher data and data for explaining the words are registered in association with each other.
When the word or word string is transmitted from the conversion unit 50, the term dictionary storage unit 60 transmits the comment data associated with the word or word string in the stored term dictionary to the conversion unit 50. If the word or word string is not in the term dictionary, empty data indicating that is transmitted.
表示部80は、液晶ディスプレイ等から構成され、変換部50から伝達された情報を表示する。
The
操作入力部90は、タッチパネル、キーボード、ボタン、ポインティングデバイス等の、ユーザの操作を受付ける操作受付装置と、操作受付装置が受け付けた操作の情報を情報処理部70に伝達する伝達部と、から構成される。操作入力部90はこのような物理構成によりユーザの操作を受け付けて、その情報を情報処理部70に伝達する。
The
ここでメニュー表示装置1がメニューを撮影した画像と、分割された文字列と、表示用データと、の関係を、図2を参照して説明する。
メニュー表示装置1は、ユーザが画像入力部10を用いてレストランのメニュー等を撮影すると、図2(a)に示すような画像I1を取得する。
そして、画像I1からOCR20が文字列を抽出し、メニュー解析部30が単語単位で分割して、図2(b)に示すように分割された単語列(部分列)として変換部50に伝達する。そして、変換部50が図2(c)に示すような部分列ごとに解説文をつけた表示データに変換して表示する。
Here, a relationship between an image obtained by photographing the menu by the
When the user uses the
Then, the
ここで、本実施形態に係る解析対象となる文字列(メニュー)と、教師データであるタグ付文字列(教師単語列)と、nグラムと、区切フラグと、区切パターンと、について、図3を参照して説明する。
本実施形態で解析対象となる文字列は、図3(a)の上に示されるようなメニューを示す文字列である。図3に示すメニュー「豚バラ肉の赤ワイン煮温野菜添え」にタグを付し、単語毎・固まり毎に分割したデータがタグ付文字列(教師データ、図3(a)下)である。図3(a)の例では、タグ付文字列は「<m><c><s><w>豚</w>バラ肉</w><w>の</w></s><s><w>赤ワイン</w><w>煮</w></s><s><w></c>温野菜</w><w>添え</w></s></m>」である。
Here, a character string (menu) to be analyzed according to the present embodiment, a tagged character string (teacher word string) that is teacher data, an n-gram, a delimiter flag, and a delimiter pattern are illustrated in FIG. Will be described with reference to FIG.
The character string to be analyzed in the present embodiment is a character string indicating a menu as shown in the upper part of FIG. The tag “Character data, lower part of FIG. 3 (a)” is a data tag attached to the menu “pork belly with red wine boiled with warm vegetables” and divided for each word and chunk. In the example of Fig. 3 (a), the tagged string is "<m><c><s><w> pig </ w> rose </ w><w></w></s><s><w> Red wine </ w><w> boiled </ w></s><s><w></c> warm vegetables </ w><w> garnished </ w></ s ></m> ”.
このタグ付文字列(教師データ)では、メニューが単語を示すタグ<w></w>によって、「豚」、「バラ肉」、…、「添え」、の7つの単語に分割されている。さらに、材料名、料理方法、等等の単位に分割するタグ<s></s>により、「豚バラ肉の」、「赤ワイン煮」、「温野菜添え」、という三つに分割されている。また、材料名と料理方法とその他の修飾語(例えば「プロバンス風」、「特選」、等)を含む一つの料理の単位に分割するタグ<c><c/>により、「豚バラ肉の赤ワイン煮」と「温野菜添え」との二つに分割されている。タグ<m></m>は文字列を一つのメニュー(献立)ごとに区切るタグである。ここで、タグ付文字列は文字列をタグ<w>、<s>、<c>、<m>で区切っているが、区切り方を定義する形式はこれに限られない。例えば、所定のカテゴリに含まれる文字列を、単語単位に区切るユニークなマーク(半角スペースでも可)と、さらに単語以外の少なくとも一つの区切り方で区切るユニークなマークと、を含む任意の文字列によって区切り方を定めても良い。
なお、タグ付文字列は、予め特定の言語(ここでは日本語)の特定のカテゴリ(ここでは献立や料理名)に属する文字列を収集して、人手でタグ付けされたデータである。なお、タグ付文字列をタグ付けする方法は人手に限らず、構文解析器等の既知の任意のタグ付け方法であって良い。
In this tagged character string (teacher data), the menu is divided into seven words of “pig”, “rose meat”,..., “Attached” by tags <w></w> indicating words. . Furthermore, the tag <s></s> that is divided into units such as ingredient name, cooking method, etc., is divided into three parts: "pork belly meat", "boiled red wine", "with warm vegetables" Yes. In addition, the tag <c><c/> that divides into one cooking unit that includes the ingredient name, cooking method, and other modifiers (for example, “Provence style”, “Specialties”, etc.) It is divided into “red wine boiled” and “warm vegetables”. Tags <m></m> are tags that separate character strings into menus (menus). Here, in the tagged character string, the character string is delimited by tags <w>, <s>, <c>, and <m>, but the format for defining the delimiter is not limited to this. For example, a character string included in a predetermined category is determined by an arbitrary character string including a unique mark (single-byte space is allowed) that divides the character string into words, and a unique mark that is further separated by at least one method other than words. You may decide how to delimit.
The tagged character string is data that is manually tagged with character strings that belong to a specific category (here, menu or dish name) of a specific language (here, Japanese). The method for tagging the tagged character string is not limited to manual operation, and any known tagging method such as a syntax analyzer may be used.
タグ付文字列と、nグラムと、区切フラグと、nグラムと、区切パターンと、の関係を図3(b)に示す。タグ付文字列の単語列から、最初の単語からn個目の単語、2つの目の単語からn+1個目の単語、…のようにn個の単語を含む単語列の集合を抽出したものがnグラム列である。nグラム列を構成するそれぞれのn個の単語を含む単語列をnグラムと呼ぶ。さらに、n=3のnグラムをトライグラム、n=2のnグラムをバイグラム、n=1のnグラムをモノグラム、と呼ぶ。 FIG. 3B shows the relationship among the tagged character string, n-gram, delimiter flag, n-gram, and delimiter pattern. A word string of a tagged character string is obtained by extracting a set of word strings including n words such as the nth word from the first word, the n + 1th word from the second word,. n-gram sequence. A word string including n words constituting the n-gram string is called an n-gram. Further, n-grams with n = 3 are called trigrams, n-grams with n = 2 are called bigrams, and n-grams with n = 1 are called monograms.
「豚バラ肉の赤ワイン煮温野菜添え」から、トライグラム「豚バラ肉の」、「バラ肉の赤ワイン」、…、「煮温野菜添え」、から構成されるトライグラム列を得ることが出来る(図3(b))。メニューの単語列は図3(b)の上部に示すように、タグ構造によってツリー状に区切られる。そして、システムの設計上定められたツリーの所定の高さ(タグ付文字列の所定のタグに対応)で、単語と単語との間のどこで区切れるか、その区切り方を定めることが出来る。 You can obtain a trigram sequence consisting of trigram "pork rose meat", "red rose wine", ..., "boiled warm vegetables" from "pig rose meat with red wine stewed vegetables" (FIG. 3B). As shown in the upper part of FIG. 3B, the menu word string is divided into a tree structure by the tag structure. Then, it is possible to determine where a word is divided between words at a predetermined height (corresponding to a predetermined tag of a tagged character string) determined by the system design.
図3(b)上のツリーの例では、タグ<m>又は</m>がある部位、タグ<s>及び</s>がある部位、タグ<c>及び</c>がある部位、のそれぞれ(区切ライン)でメニューが区切れている。単語列の語間のそれぞれで、区切れている場合に1、区切れて居ない場合を0で示した情報を区切フラグと呼ぶ。
なお、どのタグがある部分で区切れていると判断するかの判断基準は、自由に設定可能である。例えば、<s></s>タグがある部分のみで区切れていると判断して区切フラグを配置する設定等の任意の設定が可能である。
In the example of the tree in FIG. 3 (b), the part with the tag <m> or </ m>, the part with the tags <s> and </ s>, the part with the tags <c> and </ c> The menu is separated by each (separation line). Information between each word in the word string is referred to as a delimiter flag.
Note that the criteria for determining which tag is delimited by a certain part can be freely set. For example, it is possible to make arbitrary settings such as a setting for determining that the <s></s> tag is separated only by a portion and arranging a separation flag.
nグラムについて、そのnグラムの語間のそれぞれで単語列が区切れているか否かを、単語と区切フラグを並べて定義したパターンを区切パターンという。
例えば、トライグラムを構成する3つの単語(単語A、単語B、単語C)について、単語Aの前、単語Cの後ろを含むいずれの語間でも教師データが区切れて居ない場合に対応する区切パターンは「0A0B0C0」、全ての語間で区切れている場合に対応する区切パターンは「1A1B1C1」、である。
For n-grams, a pattern in which words and delimiter flags are defined side by side is referred to as a delimiter pattern.
For example, for the three words (word A, word B, word C) constituting the trigram, this corresponds to the case where the teacher data is not divided between any words including the word A before and the word C. The delimiter pattern is “0A0B0C0”, and the delimiter pattern corresponding to the case where all words are delimited is “1A1B1C1”.
あるnグラムで構成されている教師データ全体(例えばM個)と、そのnグラムの区切パターンで区切れている教師データの数(例えばm個)と、から算出される係数m/Mを、教師データにおいてそのnグラムに該当する部分がその区切パターンで区切れている確からしさを示す係数(区切確率係数)として定義する。教師データとなるタグ付文字列を十分な数だけ、偏り無く用意すれば(Mが十分大きければ)、区切確率係数はその言語でそのnグラムを含むメニュー全体でそのnグラムに対応する部位がその区切パターンに対応する区切方で区切れている確からしさを示す係数とみなすことができる。 The coefficient m / M calculated from the entire teacher data (for example, M) composed of a certain n-gram and the number of teacher data (for example, m) divided by the n-gram separation pattern, It is defined as a coefficient (separation probability coefficient) indicating the probability that the portion corresponding to the n-gram in the teacher data is segmented by the segmentation pattern. If a sufficient number of tagged character strings serving as teacher data are prepared without bias (if M is sufficiently large), the delimitation probability coefficient is the part corresponding to the n-gram in the entire menu including the n-gram in the language. It can be regarded as a coefficient indicating the probability of being partitioned by the partitioning method corresponding to the partition pattern.
次に、メニュー解析部30の機能構成について、図4を参照して説明する。メニュー解析部30は、図4に示すように、文字列取得部310、分かち書き部320、nグラム列生成部330、nグラム選択部340、区切パターン生成部350、ルート確率係数定義部360、ルート選択部370、単語列分割部380、出力部390、から構成される。
Next, the functional configuration of the
文字列取得部310は、OCR20が抽出した文字列を受け取り、分かち書き部320に伝達する。
The character
分かち書き部320は、文字列取得部310が取得した文字列を単語単位に分割する分かち書き処理を実行する。分かち書き部320は文字列から単語を抽出する任意の既知の方法を用いて上記分かち書き処理を実行してよいが、ここでは特許文献2が例示する方法を用いることとする。
なお、分かち書き部320は、解析対象となるメニューが英語やフランス語等の単語毎にスペースで区切られる言語であった場合は、スペースによって単語を区切ることにより上記分かち書き処理を実行する。
分かち書き部320は、分かち書き処理によりメニューの文字列を単語列Wに変換してnグラム列生成部330へ伝達する。
The
If the menu to be analyzed is a language that is separated by a space for each word, such as English or French, the
The
nグラム列生成部330は、分かち書き部320からメニューの単語列Wを伝達されると、単語列Wからnグラムの集合であるnグラム列を抽出する。nグラム列生成部330は、生成したnグラム列をnグラム選択部340に伝達する。nグラム列に含まれる各nグラムは、単語列Wの部分列である。
When the word string W of the menu is transmitted from the
nグラム選択部340は、生成したnグラム列のnグラムを先頭(又は最後尾)から最後尾(又は先頭)に向かって順次注目nグラムとして選択し、選択した注目nグラムを区切パターン生成部350に伝達する。
The n-
区切パターン生成部350は、注目nグラムを伝達されると、注目nグラムについて定義できる区切パターン(通常2^(n+1)個)を生成する。区切パターン生成部350は、生成した区切パターンをルート確率係数定義部360に伝達する。なお、nグラムから生成される区切パターンをそのnグラムの対応区切パターンと呼ぶ。
When the notice n-gram is transmitted, the delimiter
ルート確率係数定義部360は、伝達された対応区切パターンを確率係数出力部40に伝達して、区切パターンの区切確率係数とその根拠を示す根拠情報を受け取る。そして、受け取った確率係数と根拠情報とから後述するルート確率係数を算出する。
ルート確率係数定義部360はこのような機能を実現するために確率係数取得部3610と、信頼度定義部3620と、補正部3630と、ルート確率係数算出部3640と、を含む。
The route probability
The route probability
確率係数取得部3610は、区切パターン生成部350が生成した全区切パターンを確率係数出力部40に伝達して、各区切パターンの区切確率係数を取得する。
信頼度定義部3620は、確率係数出力部40から確率係数取得部3610が取得した区切確率係数の根拠を示す根拠情報を取得し、根拠情報から区切確率係数の信頼度を定義する。ここで信頼度とは、区切パターンの確率係数が、教師データが属するカテゴリの文字列全体の実際の区切れ方をどの程度正しく反映しているか、その信頼の高さを示す係数である。根拠情報及び根拠情報から信頼度を定義する処理については後述する。
The probability
The
ここで、ルート確率係数定義部360が定義するルート確率係数について、図5を参照して説明する。
単語列Wから抽出されたnグラムを、先頭からnグラム1、nグラム2、・・・と表記する。以下、n=2であり、nグラムはバイグラムとして説明する。図5の例では、nグラム1はバイグラム「豚−バラ」、nグラム2はバイグラム「バラ−肉」、である。nグラム1とnグラム2は、互いに隣接するnグラム(隣接nグラム、隣接部分列)と考えることが出来る。
Here, the route probability coefficient defined by the route probability
The n-gram extracted from the word string W is expressed as n-
nグラム1の対応区切パターンとして8つの区切パターンが定義できる(図5の左側)。 Eight division patterns can be defined as corresponding division patterns of n-gram 1 (left side in FIG. 5).
nグラム1の対応区切パターンのそれぞれについて、確率係数取得部3610が取得した区切確率係数をpa11〜pa18とする。そして、pa11〜pa18を、信頼度定義部3620が取得した信頼度定義部に基づいて補正部3630が補正し、補正後の区切確率係数を用いてルート確率係数を算出する。補正後の区切確率係数p11〜p18とする。
For each of the corresponding division patterns of n-
次に、nグラム2の対応区切パターンを、8つ定義する(図5の左から2列目)。nグラム2の補正後の区切確率係数を区切確率係数p21〜p28とする。
そして、nグラム2の対応区切パターンと、nグラム1の対応区切パターンとにおいて、対応する語間の区切フラグが共通の区切パターン(共通隣接区切パターン)に注目する。
例えば、nグラム1の対応区切パターンの「1豚0バラ0」の共通隣接区切パターンは、nグラム2の対応区切パターンのうち「0バラ0肉0」と「0バラ0肉1」とである。
また、nグラム3のある対応区切パターンの共通隣接区切パターンとして、nグラム2の対応区切パターンのうち対応する語間の区切フラグが共通の2つが挙げられる。例えば、nグラム3の対応区切パターンの「0肉0の0」の共通隣接区切パターンは、nグラム2の対応区切パターンのうち「0バラ0肉0」と「1バラ0肉0」である。
Next, eight corresponding division patterns of n-
Then, in the corresponding partition pattern of n-
For example, the common adjacent separation pattern of “1
Further, as the common adjacent delimiter pattern of the corresponding delimiter pattern of n-gram 3, two common delimiter flags between corresponding words among the corresponding delimiter patterns of n-
nグラム2の対応区切パターン(y番目)のルート確率係数pp2yを、その補正後の区切確率係数p2yと、nグラム1の共通隣接区切パターンのうち、補正後の区切確率係数が大きい方の値との積とする。
さらに、nグラム3の対応区切パターンのルート確率係数は、その補正後の区切確率係数と、nグラム2の共通隣接区切パターンのうち、ルート確率係数が大きい方の共通隣接区切パターン(対応隣接区切パターン、図5の実線の矢印で示すパス)のルート確率係数と、の積とする。このように、図5に示すような隣接nグラムの区切パターンをそれぞれ共通隣接区切パターンどうし対応づけたテーブルを用いてルート確率係数を計算していく。このテーブルをルート確率テーブルと呼ぶ。
The route probability coefficient pp 2y of the corresponding partition pattern (y-th) of n-
Furthermore, the root probability coefficient of the corresponding partition pattern of n-gram 3 is the corrected adjacent probability coefficient and the common adjacent partition pattern (corresponding adjacent partition) having the larger root probability coefficient among the common adjacent partition patterns of n-
nグラム1のルート確率係数を、補正後の区切確率係数と等しいとし、nグラムxの対応区切パターン(y番目)のルート確率係数ppxyは、補正後の区切確率係数pxyと、対応隣接区切パターンのルート確率係数のうち大きい方の値(選択ルート確率係数)の積であると定義する。補正処理については後述する。
route probability factor of n-
補正後の確率係数を用いて算出した対応区切パターンのルート確率係数は、最初のnグラム(nグラム1)からその対応区切パターンまで、最も確からしいルート(最尤ルート)をたどった場合に、そのルートに現れる区切パターンの区切り方で単語列が区切れる確からしさを示す係数である。
このルート確率係数は、最尤ルートに現れる区切パターンの補正後の区切確率係数の一つ一つに対して、少なくとも所定の値域では増加関数である任意の式・算出方法で求める係数であるとしてもよい。例えば、最尤ルートに現れる区切パターンの補正後の区切確率係数の加算平均としても良い。また、補正後の区切確率係数とルート確率係数との対応関係を実験により求め、その対応関係を記憶したテーブルを予めプログラム記憶部703に記憶しておき、このテーブルを参照してルート確率係数を求めても良い。
The route probability coefficient of the corresponding delimiter pattern calculated using the corrected probability coefficient follows the most probable route (maximum likelihood route) from the first n-gram (n-gram 1) to the corresponding delimiter pattern. It is a coefficient indicating the probability that a word string is delimited by the delimiter pattern that appears in the route.
This route probability coefficient is a coefficient obtained by an arbitrary expression / calculation method that is an increasing function at least in a predetermined range with respect to each of the division probability coefficients after correction of the division pattern appearing in the maximum likelihood route. Also good. For example, it may be an average of the division probability coefficients after correction of the division pattern appearing in the maximum likelihood route. Further, a correspondence relationship between the corrected division probability coefficient and the root probability coefficient is obtained by experiments, a table storing the correspondence relationship is stored in advance in the
このように、次の隣接nグラムの各区切パターンについてルート確率係数を算出し、最後のnグラム(図5の例ではnグラム7「温野菜−添え」)のルート確率係数pp7yまで算出する。 In this manner, the root probability coefficient is calculated for each of the next adjacent n-gram segmentation patterns, and is calculated up to the root probability coefficient pp 7y of the last n-gram (n-gram 7 “warm vegetables—attached” in the example of FIG. 5). .
ルート確率係数pp7yは、nグラム1からnグラム7まで、その区切パターンに到達する全てのルートのうち最も確からしいルートの区切り方の確からしさを示す係数である。そこで、ルート確率係数pp7y(y=1〜8)のうち最も大きい値を持つ対応区切パターンを選択する。図5の例では、「1温野菜0添え1」(y=4)が選択される。そして、選択された対応区切パターンに至るルートを特定して、単語列Wの最尤ルートとする。
The route probability coefficient pp 7y is a coefficient indicating the probability of the most probable route delimitation among all the routes reaching the delimiter pattern from n-
最尤ルートは、選択された区切パターンの隣接対応区切パターンのうちより大きいルート確率係数を持つパターンを選択し、最後のnグラム(nグラム7)から最初のnグラム(nグラム1)まで辿ることにより定めることが出来る。 For the maximum likelihood route, a pattern having a larger root probability coefficient is selected from the adjacent corresponding delimiter patterns of the selected delimiter pattern, and traced from the last n-gram (n-gram 7) to the first n-gram (n-gram 1). Can be determined by
そして、最尤ルートに現れる区切パターンを、それぞれ単語列Wを区切る区切パターンとして選択し、その区切り方で単語列Wを区切ることとする。 Then, a delimiter pattern appearing in the maximum likelihood route is selected as a delimiter pattern that delimits the word string W, and the word string W is delimited by the delimiter pattern.
補正部3630が実行する補正処理について、図6を参照して説明する。あるnグラム(ここではバイグラム)について、区切フラグを「パターン」とし、その区切フラグに対応する区切パターンの確率係数(pax1〜pax8)と補正後の確率係数(px1〜px8に対応)の例を、図6(a)に示す。本実施形態では補正前の区切確率係数を二乗した数値を補正後の区切確率係数とする。図6(a)の補正後の区切り確率係数は、補正前の区切確率係数を二乗し、補正前との比較のために正規化した数値である。例えば、パターン「010」は、例えばバイグラムが「豚−バラ」であれば、区切パターン「0豚1バラ0」の区切フラグを示す。
The correction process executed by the
各パターンについて補正前の確率係数と、補正後の確率係数(正規化有り)を並べたグラフを図6(b)に示す。白い棒及び点線で示した補正前の確率係数に対し、黒い棒及び実践で示した補正後の確率係数がより大小を強調されている。補正後の確率係数は、補正前の確率係数に比べコントラストが拡大されており、そのためルート確率係数に与える影響が大きい。
具体的に説明する。最終的に選択されるルートは、各ルートに現れる区切パターンの補正後の確率係数の積(pp71〜pp78、最終ルート確率係数)の相対的な大きさによって選択される。ある列xの値(px1〜px8)が全て二乗され、その他の列が同じであれば、pp71〜pp78の値の大小には、その列の値(px1〜px8)の大小がより強調されて現れる。そのため、列xの区切確率係数二乗すれば、列xの値が選択結果に与える影響を拡大することが出来る。
なお、本実施形態のようにルート確率係数を補正後の区切確率係数と選択ルート確率係数の積で求める場合は、各列の値に任意の値を乗算しても最終ルート確率係数の大小は変化しない。そのため、正規化の有無は以下の処理結果に影響を与えない。
FIG. 6B shows a graph in which probability coefficients before correction and probability coefficients after correction (with normalization) are arranged for each pattern. The probability coefficient after correction indicated by the black bars and practice is emphasized by the magnitude of the probability coefficient before correction indicated by white bars and dotted lines. The corrected probability coefficient has a greater contrast than the uncorrected probability coefficient, and thus has a large effect on the root probability coefficient.
This will be specifically described. The route that is finally selected is selected according to the relative size of the product (pp 71 to pp 78 , the final route probability coefficient) after correction of the delimiter patterns that appear in each route. If all the values of a certain column x (p x1 to p x8 ) are squared and the other columns are the same, the values of pp 71 to pp 78 may be different from the values of the column (p x1 to p x8 ). Big and small appear more emphasized. For this reason, if the dividing probability coefficient of column x is squared, the influence of the value of column x on the selection result can be expanded.
Note that when the root probability coefficient is obtained by multiplying the corrected delimitation probability coefficient and the selected root probability coefficient as in the present embodiment, the final route probability coefficient is large or small even if the value of each column is multiplied by an arbitrary value. It does not change. Therefore, the presence or absence of normalization does not affect the following processing result.
補正部3630は、信頼度が所定の数値より高いnグラムについては、この補正処理によってそのnグラムの区切パターンの確率係数がルートの選定に与える影響を大きくする。一方、信頼度が所定の数値より低いnグラムについては補正処理を実行しない。そのため、信頼度が高いnグラムの確率係数が、信頼度が低いnグラムの確率係数とくらべて、区切り方を決めるにあたってより強い影響を与える。なお、後述するように、この補正の方法はここで説明した方法に限らず、信頼度が高いnグラムの確率係数がよりルートの選定に与える影響を高めるさまざまな方法で代替可能である。
The
ルート確率係数算出部3640は、各区切パターンのルート確率係数を算出すると、各区切パターンと、算出したルート確率係数と、を対応づけてルート選択部370に伝達する。
When the route probability
ルート選択部370は、ルート確率係数定義部360から伝達された各区切パターンとそのルート確率係数とから、図5で説明した最尤ルートを求め、区切パターン生成部350が生成した区切パターンから最尤ルートに現れる区切パターンを選択する。ルート選択部370は、選択した区切パターンを単語列分割部380に伝達する。
The
単語列分割部380は、ルート選択部370から伝達された区切パターンの区切り方で、単語列Wを各部分列に分割する。そして、分割した単語列の各部分列を、出力部390に伝達する。
The word
出力部390は、伝達された単語列Wを分割した部分列を、変換部50に出力する。
The
次に、確率係数出力部40の構成を、図7を参照して説明する
確率係数出力部40は、図7に示すように、区切パターン取得部410、判別部420、(n−1)グラム生成部430、確率係数取得部440、確率係数算出部450、確率係数出力部460、記憶部470、根拠情報出力部480、から構成される。
Next, the configuration of the probability
区切パターン取得部410は、メニュー解析部30から区切パターン(確率係数を取得する必要のある区切パターン)を取得する。ここで、区切パターンはnグラムと、各語間の区切りフラグと、を示す情報から構成される。なお、ここではnグラム選択部340が選択したnグラムについて、区切パターン生成部350が生成した全区切パターンを取得するとする。区切パターン取得部410は、取得した区切パターンを判別部420に伝達する。
The delimiter
判別部420は、区切パターン取得部410から伝達されたnグラムの区切パターンについて、その区切れ方でメニューが区切れる確からしさを示す確率係数(区切確率係数)が取得できるか否か判別する。判別部420は、判別処理にあたって、記憶部470の確率係数記憶部4710に記憶された確率係数リストを参照する。nグラムリスト及び判別部420が実行する判別処理の具体的な内容については後述する。
The
判別部420は、区切パターンの確率係数が取得できると判別すると、確率係数取得部440に区切パターンを伝達する。
一方、区切パターンの確率係数が取得できないと判別すると、(n−1)グラム生成部430に区切パターンを伝達する。
If the
On the other hand, if it is determined that the probability coefficient of the partition pattern cannot be acquired, the partition pattern is transmitted to the (n-1)
(n−1)グラム生成部430は、判別部420から区切パターンを伝達されると、区切パターンのnグラムを構成する最初の単語からn−1個目の単語から構成される(n−1)グラム(前(n−1)グラム)と、構成する2つ目の単語からn個目の単語から構成されるn−1グラム(後(n−1)グラム)と、を生成する。
(n−1)グラム生成部430は、生成した2つの(n−1)グラムを、判別部420に伝達する。
(N−1) When the
The (n-1)
判別部420は、(n−1)グラム生成部430から2つの(n−1)グラムを伝達されると、2つの(n−1)グラムのそれぞれについて確率係数が取得できるか否か判別する。2つの(n−1)グラムの何れか一方でも確率係数が取得できない場合は、(n−1)グラム生成部430に3つの(n−2)グラムを生成させ、以下モノグラムになるまで同様に判別処理を繰り返す。判別部420と(n−1)グラム生成部430が実行する処理の具体的な内容については後述する。判別部420は最終的に確率係数が取得できたnグラム(n−1グラム)をjグラムとすると、jの値を根拠情報出力部480に伝達する。
When two (n-1) grams are transmitted from the (n-1)
確率係数取得部440は、判別部420から区切パターン取得部410が取得した区切パターン(nグラムの区切パターン)を伝達されると、確率係数記憶部4710に記憶された確率係数リストからその確率係数を取得する。そして、取得した確率係数出力部460に伝達する。
一方、単語列としてn−1グラム〜モノグラム(ここではjグラムとする)を伝達されると、伝達された全てのjグラムについて、区切パターン取得部410が取得した情報が示す区切パターンの確率係数を取得するために必要な区切パターンを生成し、それぞれの区切パターンについて確率係数を取得する。
そして、伝達された全てのjグラムと、生成した区切パターンと、その確率係数と、を確率係数算出部450に伝達する。
When the probability
On the other hand, when n-1 gram to monogram (here, j gram) is transmitted as a word string, the probability coefficient of the delimiter pattern indicated by the information acquired by the delimiter
Then, all the transmitted j-grams, the generated segmentation patterns, and the probability coefficients thereof are transmitted to the probability
確率係数算出部450は確率係数取得部440から、伝達された全てのjグラムから生成された区切パターンと、その確率係数を伝達されると、伝達された情報からnグラムの区切パターンの確率係数を算出する。確率係数算出部450がどのようにnグラムの区切パターンの確率係数を算出するかは後述する。
確率係数算出部450は、nグラムの区切パターンの確率係数を算出すると、区切パターン取得部410が取得した、確率係数が必要な区切パターンの確率係数を確率係数出力部460に伝達する。
The probability
When the probability
確率係数出力部460は、確率係数算出部450から伝達された区切パターンとその確率係数をメニュー解析部30に出力する。
The probability
記憶部470は、確率係数出力部40の記憶部470を除く各部から情報を伝達され、伝達された情報を記憶する。また、確率係数出力部40の記憶部470を除く各部からのコマンドに応答して、記憶する情報を出力する。
The
記憶部470は、後述する確率係数リストを記憶する確率係数記憶部4710、確率係数出力部40が下記する処理を実行するための設定パラメータを記憶する設定記憶部4720、を含む。
The
確率係数記憶部4710が記憶する確率係数リストの例を、図8を参照して説明する。図8は、バイグラムと、区切フラグと、に対応する確率係数を登録したバイグラム確率係数リストの例である。例えば、パターン「010」の列、「豚−バラ」の行、に数値0.02が登録されていることは、区切パターン「0豚1バラ0」の確率係数が0.02であることを示す。このように、確率係数リストは、nグラムの区切パターンについて、その区切パターンで教師データが区切れる確率を示すリストである。
An example of the probability coefficient list stored in the probability
次に、確率係数算出部450が、jグラムの区切パターン及びその確率係数を用いて、nグラムの区切パターンの確率係数を算出する処理について、図9を参照して説明する。
Next, a process in which the probability
確率係数リストに、あるトライグラム(ここでは「の赤ワイン煮」)が登録されていない場合に、確率係数算出部450はバイグラムやモノグラムの区切パターンの確率係数からトライグラムの区切パターンの確率係数を算出する。
When a certain trigram (in this case, “boiled in red wine”) is not registered in the probability coefficient list, the probability
トライグラム「の赤ワイン煮」の注目区切パターン「0の1赤ワイン0煮1」を算出する場合の算出方法を、図9(a)を参照して説明する。ここで、トライグラムの、前半のバイグラム(前バイグラム)は「の赤ワイン」、後半のバイグラム(後バイグラム)は「赤ワイン煮」である。そして、注目区切パターンに対応するバイグラムの区切パターン(対応区切パターン)は、対応する語間の区切フラグが共通する「0の1赤ワイン0」と「1赤ワイン0煮1」とである。
A calculation method in the case of calculating the attention partitioning pattern “0 1 red wine boiled 1” of the trigram “no red wine boiled” will be described with reference to FIG. Here, the first half of the trigram (front bigram) is “red wine”, and the second bigram (second bigram) is “red wine boiled”. The bigram delimiter patterns (corresponding delimiter patterns) corresponding to the target delimiter pattern are “0
確率係数算出部450はこの対応するバイグラム(jグラム)の区切パターンとその確率係数を確率係数取得部440から伝達されると、区切フラグを比較して対応区切パターンを抽出する。そして、対応区切パターンの区切確率係数を加算平均して、注目区切パターンの区切確率係数とする(図9(a))。
When the probability
同様に、対応するモノグラムの区切パターンとその区切確率係数を確率係数取得部440から取得すると、前・中央・最後尾の各モノグラムから対応区切パターンを抽出し、各対応区切パターンの区切確率係数を加算平均して注目区切パターンの確率係数とする(図9(b))。
Similarly, when the corresponding monogram delimiter pattern and its delimiter probability coefficient are acquired from the probability
根拠情報出力部480は判別部420から、出力する確率係数がモノグラム〜nグラムのうち、どの確率係数リストに登録された確率係数に基づいて算出されたかを示す数値を受け取る。そして、その値を根拠情報として信頼度定義部3620に出力する。例えば、同じトライグラム「豚−バラ−肉」の確率係数を出力するにしても、確率係数リストにトライグラム「豚−バラ−肉」が登録されている場合は、その確率係数の信頼度は高い。一方、確率係数リストにトライグラム「豚−バラ−肉」が登録されておらず、「豚−バラ」及び「バラ−肉」のデータから算出された確率係数であった場合は、その信頼度は低い。モノグラムから生成された場合はさらに確率係数の信頼度は低い。また、モノグラムすらない場合(デフォルト値を用いた場合)はさらに低くなる。そこで、本実施形態では、実際に確率係数リストに記憶されている数値を取得できたjグラムに対して、そのjの値を区切パターンの確率係数の根拠情報とする。なお、jの値を根拠単語列長と呼ぶ。
The basis
次に、メニュー表示装置1の情報処理部70が実行する処理について、フローチャート(図10〜図14)を参照して説明する。
メニュー表示装置1は、ユーザが画像入力部10を用いてメニューの画像を取得する操作を実行すると、図10に示すメニュー表示処理を開始する。
Next, processing executed by the
When the user performs an operation of acquiring a menu image using the
メニュー表示処理では、まず画像入力部10を用いてメニューの画像を取得する(ステップS101)。
そして、取得した画像から、OCR20が文字を認識して文字列を取得する(ステップS102)。
In the menu display process, first, a menu image is acquired using the image input unit 10 (step S101).
Then, from the acquired image, the
OCR20が文字列を取得してメニュー解析部30に伝達すると、まずメニュー解析部30の分かち書き部320が、文字列を単語単位に分割する分かち書き処理を実行して、文字列を単語列Wに変換する(ステップS103)。
そして、nグラム列生成部330が単語列Wからnグラム列を生成する(ステップS104)。なお、以下n=2として説明する。
When the
Then, the n-gram
そして、メニュー解析部30は、メニューが単語列のどの部位で区切れるか推測し、メニューを分割する処理(メニュー分割処理、ここではメニュー分割処理1)を実行する(ステップS105)。
Then, the
ステップS105で実行されるメニュー分割処理1を、図11を参照して説明する。メニュー分割処理1ではまずnグラム選択部340が、qをカウンタ変数として、nグラム列のq番目のnグラムを注目nグラム(注目部分列)として選択する(ステップS201)。なお、ここではnグラム選択部340は先頭のnグラムから順に後ろのnグラムに向かって注目nグラムを選択していくとするが、注目nグラムを選択する順は逆でも良い。
The
次に、区切パターン生成部350が、注目nグラムについて定義できる区切パターンを生成する(ステップS202)。ここでは、2^(n+1)=8個の区切パターンを生成する。区切パターン生成部350は、生成した区切パターンを図5に示すようなルート確率テーブルに配置する。
Next, the delimiter
次に、rをカウンタ変数とし、ステップS202で生成した区切パターンのうちr番目の区切パターンを注目区切パターンとして選択する(ステップS203)。
そして、確率係数取得部3610が確率係数出力部40に注目区切パターンを伝達して、確率係数出力部40が注目区切パターンの確率係数(補正前の区切確率係数、paqr)を取得する処理(区切確率係数取得処理、ここでは区切確率係数取得処理1)を開始する(ステップS204)。
Next, r is used as a counter variable, and the r-th delimiter pattern is selected as the target delimiter pattern among the delimiter patterns generated in step S202 (step S203).
Then, the probability
ステップS204で実行される区切確率係数取得処理1を、図12を参照して説明する。
ステップS204に至り、メニュー解析部30からnグラムと、区切フラグと、を含む区切パターンを区切パターン取得部410が受信すると、確率係数出力部40は区切確率係数取得処理1を開始する。
区切確率係数取得処理1では、まず判別部420が確率係数記憶部4710に記憶されている確率係数リストを参照する(ステップS301)。
参照の結果、確率係数リストに注目nグラム(取得した区切パターンのnグラム)の確率係数があるか否か判別する(ステップS302)。
The break probability
In step S204, when the delimiter
In the delimiter probability
As a result of the reference, it is determined whether or not there is a probability coefficient of the target n-gram (n-gram of the acquired delimiter pattern) in the probability coefficient list (step S302).
注目nグラムの確率係数がある場合(ステップS302;YES)、確率係数リストから注目nグラムの区切パターンの確率係数を取得する(ステップS303)。そして、確率係数を求めた根拠を示す根拠情報(根拠単語列長)として、nの値(ここでは2)を定める。 If there is a probability coefficient of the target n-gram (step S302; YES), the probability coefficient of the partition pattern of the target n-gram is acquired from the probability coefficient list (step S303). Then, the value of n (here 2) is determined as the basis information (base word string length) indicating the basis for obtaining the probability coefficient.
一方、注目nグラムのデータが確率係数リストにない場合(ステップS302;NO)、n−1グラム〜モノグラムを用いて確率係数を算出する処理(確率係数算出処理、ここでは確率係数算出処理1)を実行する(ステップS305)。 On the other hand, when the data of the target n-gram is not in the probability coefficient list (step S302; NO), the process of calculating the probability coefficient using n-1 gram to monogram (probability coefficient calculation process, here the probability coefficient calculation process 1) Is executed (step S305).
ステップS305で実行される確率係数算出処理1について、図13を参照して説明する。
確率係数算出処理1では、まず(n−1)グラム生成部430が注目文字列(nグラム)の部分列である(n−1)グラムを二つを生成する(ステップS401)。
The probability
In the probability
そして、判別部420が、二つの(n−1)グラムの両方について、確率係数が取得可能であるか、区切確率係数取得処理(図8)のステップS302と同様に確率係数記憶部4710に記憶された(n−1)グラムリストを参照して判別する(ステップS402)。
Then, the
全ての(n−1)グラムの確率係数が取得可能であれば(ステップS402;YES)は、(n−1)グラムの確率係数を用いて区切パターンの確率係数を算出する(図5(a))ためにステップS406に移行する。 If the probability coefficients of all (n-1) grams can be acquired (step S402; YES), the probability coefficient of the segmentation pattern is calculated using the probability coefficient of (n-1) grams (FIG. 5 (a)). Therefore, the process proceeds to step S406.
何れかの(n−1)グラムのデータが確率係数リストに無い場合(ステップS402;NO)は、(n−2)グラムを用いて確率係数を算出する(図5(b))。
即ち、現在のn−1が1でないか判別し(ステップS403)、1で無い場合は(ステップS403;NO)、nをさらに1減算し(ステップS404)、ステップS401にもどって、元のnグラムについて定義できる全ての(n−1)グラム(例えば元のnグラムがトライグラムであり、n−1の値が1である場合は3つのモノグラム)を生成する。
If any (n-1) gram data is not in the probability coefficient list (step S402; NO), the (n-2) gram is used to calculate the probability coefficient (FIG. 5B).
That is, it is determined whether the current n-1 is not 1 (step S403). If it is not 1 (step S403; NO), n is further subtracted by 1 (step S404), and the process returns to step S401 to return to the original n. Generate all (n-1) grams that can be defined for a gram (eg, three monograms if the original n-gram is a trigram and the value of n-1 is 1).
一方、n−1が1である場合(ステップS403;YES)、さらにnを減少させることが出来ないため、確率係数が取得不能なモノグラムについて、区切パターンを生成し、その確率係数をデフォルト値(ここでは0.5)とする(ステップS405)。 On the other hand, when n-1 is 1 (step S403; YES), since n cannot be further reduced, a delimiter pattern is generated for a monogram for which a probability coefficient cannot be obtained, and the probability coefficient is set to a default value ( Here, 0.5) is set (step S405).
そして、ステップS401〜ステップS405で全ての確率係数を取得できる(n−1)の値を決定すると、次にその(n−1)グラムの全てについて、メニュー解析部30から伝達された区切パターンと対応する語間で共通する区切フラグをもつ区切パターンを生成する(ステップS406)。そして、生成した区切パターンについて、確率係数取得処理(図11)のステップS303と同様に区切確率係数を取得する(ステップS407)。
And if the value of (n-1) which can acquire all the probability coefficients is determined in step S401 to step S405, then for all of the (n-1) gram, the delimiter pattern transmitted from the
そして、得られた(n−1)グラムの区切パターンの確率係数を加算平均して注目区切パターンの確率係数とする(ステップS408)。さらに、確率係数リストから確率係数を得られたn−1の値を根拠単語列長(根拠情報)とする(ステップS409)。このとき、処理がステップS405を介しており、算出した確率係数がデフォルト値に基づいている場合は根拠単語列長を0とする。
そして、確率係数算出処理1は終了する。
Then, the probability coefficients of the obtained (n-1) gram segmentation patterns are added and averaged to obtain the probability factor of the segmentation pattern of interest (step S408). Further, the value of n−1 from which the probability coefficient is obtained from the probability coefficient list is set as the base word string length (base information) (step S409). At this time, if the process is via step S405 and the calculated probability coefficient is based on the default value, the basis word string length is set to zero.
Then, the probability
図12にもどって、ステップS303又はステップS305で区切確率係数を取得すると、取得した確率係数をメニュー解析部30に出力する(ステップS306)。ステップS306では、さらにステップS304又は確率係数算出処理で定めた根拠情報(根拠単語列長)を出力する。なお、本実施形態では、根拠情報は各注目nグラムにつき一つ定義し、一度だけ伝達すれば必要に足りる。そして、区切確率係数取得処理1は終了する。
Returning to FIG. 12, when the delimitation probability coefficient is acquired in step S303 or step S305, the acquired probability coefficient is output to the menu analysis unit 30 (step S306). In step S306, the basis information (basis word string length) determined in step S304 or the probability coefficient calculation process is further output. In the present embodiment, it is sufficient to define the basis information for each target n-gram and transmit it only once. And the division | segmentation probability
図11にもどって、ステップS204で注目区切パターンの確率係数(区切確率係数pqr)とその根拠情報を取得すると、次にルート確率係数定義部360が取得した区切確率係数と根拠情報とを用いてルート確率係数を求める処理(ルート確率係算出処理、ここではルート確率係数算出処理1)を実行する(ステップS205)。
Returning to FIG. 11, when the probability coefficient (separation probability coefficient p qr ) and the basis information of the target separation pattern are acquired in step S <b> 204, the partition probability coefficient and the basis information acquired by the route probability
ステップS205で実行されるルート確率係数算出処理1を、図14を参照して説明する。
ルート確率係数算出処理1では、信頼度定義部3620が根拠情報出力部480から根拠情報として根拠単語列長を取得する。そして、得られた根拠単語列長を信頼係数とすることで、信頼係数を定義する(ステップS501)。なお、本実施形態では根拠情報(根拠単語列長)は各注目nグラムにつき一つ取得し、一つ信頼係数を定義して注目nグラムについて生成された区切パターンの確率係数それぞれに共通する信頼係数とする。信頼係数が大きいほど(根拠となった単語の長さが長いほど)、区切確率係数の信頼度は高い。
The route probability
In the route probability
そして、補正部3630が、ステップS501で定めた信頼係数が所定の閾値(例えば2)以上であるか判別する(ステップS502)。閾値以上であった場合(ステップS502;YES)、その確率係数は信頼度が高いので、コントラストを拡大して影響を高める拡大補正処理を実行する(ステップS503)。具体的には、取得した区切確率係数を二乗して、補正後の区切確率係数とする。
Then, the
一方、信頼係数が閾値より小さい場合(ステップS502;NO)、信頼度が低いとの判断に基づき、ステップS503をスキップする。 On the other hand, when the reliability coefficient is smaller than the threshold value (step S502; NO), step S503 is skipped based on the determination that the reliability is low.
さらに、ルート確率係数算出部3640が隣接nグラムの対応区切パターンのうち、対応する区切フラグが共通する区切パターン(共通隣接区切パターン)を抽出する(ステップS504)。
1度目のループでは、隣接nグラムについての処理がまだ終わっていないため、この処理はスキップされる。
Further, the route probability
In the first loop, the processing for the adjacent n-grams is not finished yet, so this processing is skipped.
次に、ルート確率係数算出部3640が抽出した共通隣接区切パターンのうち、ルート確率係数が大きいほうの区切パターンを選択し、選択された共通隣接区切パターンから注目区切パターンへのパスを、注目区切パターンへ至る最尤パスとして選択する(ステップS505)。
1度目のループでは、隣接nグラムについての処理がまだ終わっていないため、この処理はスキップされる。
Next, among the common adjacent delimiter patterns extracted by the route probability
In the first loop, the processing for the adjacent n-grams is not finished yet, so this processing is skipped.
そして、ルート確率係数算出部3640は、ステップS505で選択した共通隣接区切パターンのルート確率係数と、確率係数取得処理で取得した注目区切パターンの区切確率係数又はステップS503で補正した区切確率係数と、を乗算して、注目区切確率係数のルート確率係数(ルート確率係数ppqr)とする(ステップS506)。なお、一度目のループでは、注目区切パターンの確率係数をルート確率係数とする。そして、ルート確率係数算出処理1は終了する。
Then, the route probability
図11に戻って、ステップS205でルート確率係数を算出すると、次に情報処理部70はステップS202で生成した全区切パターンについてルート確率係数を算出する処理が終了したか判別する(ステップS206)。図5の例では、注目nグラム(q列目のnグラム)について生成された8つの区切パターンについてルート確率係数(ppq1〜ppq8)全ての算出が終わっていた場合、処理が終了したと判別される。
全区切パターンについて処理済でないと判別すると(ステップS206;NO)、rをインクリメントし(ステップS207)、次の区切パターンについてステップS203から処理を繰り返す。
Returning to FIG. 11, when the route probability coefficient is calculated in step S205, the
If it is determined that processing has not been completed for all the delimiter patterns (step S206; NO), r is incremented (step S207), and the processing is repeated from step S203 for the next delimiter pattern.
一方、全区切パターンについて処理済であると判別すると(ステップS206;YES)、次に、ステップS104で生成した全nグラムについて区切パターンを生成しルート確率係数を算出する処理を終了したか判別する(ステップS208)。全区切パターンについて処理済でないと判別すると(ステップS208;NO)、qをインクリメントし(ステップS209)、次のnグラムについてステップS201から処理を繰り返す。 On the other hand, if it is determined that all segmentation patterns have been processed (step S206; YES), it is then determined whether the processing for generating segmentation patterns and calculating route probability coefficients for all n-grams generated in step S104 is completed. (Step S208). If it is determined that processing has not been completed for all the delimiter patterns (step S208; NO), q is incremented (step S209), and the processing is repeated from step S201 for the next n-gram.
一方、全nグラムについて処理済であると判別すると(ステップS208;YES)、ルート選択部370が最後のnグラム(図5の例ではnグラム7)の対応区切パターンから最もルート確率係数が大きいものを選択する。図5の例では、記号「*」で示されたルート確率係数pp74が選択される。そして、ルートを逆にたどり、最尤ルート上にある区切パターンをそれぞれ選択する(ステップS210)。具体的には、選択された区切パターンの共通隣接区切パターンのうち、ルート確率係数が大きい方の区切パターンを順次選択してゆくことで、全てのnグラム(部分列)の区切パターンを選択する。
On the other hand, if it is determined that all n-grams have been processed (step S208; YES), the
ステップS210で最尤ルート上にある区切パターンを選択すると、単語列分割部380が選択された区切パターンの区切り方で単語列Wを分割して部分列とする(ステップS211)。そして、分割した部分列を出力部390が変換部50に伝達して、メニュー分割処理1は終了する。
When a delimiter pattern on the maximum likelihood route is selected in step S210, the word
図10にもどって、メニュー分割処理(ステップS105)で、ステップS103で取得した単語列Wを部分列に分割すると、カウンタ変数をiとして、i番目の部分列について変換部50が表示データを生成する処理を実行する。
即ち、i番目の部分列に含まれる各単語の解説データを用語辞書記憶部60から取得して、図2(c)に示すような表示データに変換する(ステップS106)。
Returning to FIG. 10, in the menu division process (step S105), when the word string W acquired in step S103 is divided into partial strings, the conversion unit 50 generates display data for the i-th partial string with the counter variable as i. Execute the process.
That is, the explanation data of each word included in the i-th partial sequence is acquired from the term dictionary storage unit 60 and converted into display data as shown in FIG. 2C (step S106).
そして、ステップS105で得られた部分列の全てについて表示データに変換する処理が終わったかを判別し(ステップS107)、終わっていない場合は(ステップS107;NO)、カウンタ変数iをインクリメントして(ステップS108)次の部分列についてステップS106から処理を繰り返す。 Then, it is determined whether or not the process of converting all the partial sequences obtained in step S105 into display data has been completed (step S107). If it has not been completed (step S107; NO), the counter variable i is incremented ( Step S108) The processing is repeated from step S106 for the next partial sequence.
一方、全ての部分列について表示データに変換したと判別した場合は(ステップS107;YES)、得られた表示データを表示部80が表示する(ステップS109)。そして、メニュー表示処理1は終了する。
On the other hand, when it is determined that all partial columns have been converted to display data (step S107; YES), the
以上説明したように、本実施形態に係るメニュー表示装置1によれば、教師データに基づいて生成された確率係数リストによって、メニューを表現する単語列を分割することが出来る。そのため、構文解析プログラムを言語ごとに用意しなくても単語列を区切ることが出来る。
また、本実施形態は、単語列を区切るにあたって、より多くの根拠に基づく信頼できる情報(区切確率係数)が、最終的な区切り方により強い影響を与えるような方法を用いている。そのため、情報の信頼度を反映した精度が高い区切り方を推定することが出来る。
As described above, according to the
Further, in the present embodiment, a method is used in which reliable information (separation probability coefficient) based on more grounds has a stronger influence on the final segmentation method when segmenting word strings. Therefore, it is possible to estimate a separation method with high accuracy reflecting the reliability of information.
また、本実施形態では補正部が、信頼度が高い区切パターンの確率係数がルート確率係数の算出結果に与える影響を、信頼度が低い区切パターンより大きくなるように補正する。そして、信頼度が高い区切パターンの区切り方がより強く反映された最終ルート確率係数に基づき区切パターンを選択し、選択した区切パターンの区切り方で単語列Wを区切る。そのため、単語列Wの区切り方を精度良く推定して区切ることが出来る。 In this embodiment, the correction unit corrects the influence of the probability coefficient of the partition pattern with high reliability on the calculation result of the root probability coefficient so as to be larger than the partition pattern with low reliability. Then, a delimiter pattern is selected based on the final route probability coefficient in which the delimiter pattern with high reliability is more strongly reflected, and the word string W is delimited by the selected delimiter pattern delimiter. Therefore, it is possible to accurately estimate and delimit the word string W.
また、区切パターンを選択するに当たって、そのnグラムの区切パターンの区切確率係数と、隣接する区切パターンの区切フラグが共通する共通隣接区切パターンの区切確率係数と、を共に考慮して選択するため、ただnグラムの区切パターンから区切確率係数が大きい区切パターンを選択する場合と比べ、より多くの情報に基づいて区切り方を定めることが出来る。
そのため、本実施形態の区切り方で単語列Wを区切ると、区切り方の精度が高い。
Further, in selecting a delimiter pattern, the delimiter probability coefficient of the n-gram delimiter pattern and the delimiter probability coefficient of the common adjacent delimiter pattern common to the delimiter flags of adjacent delimiter patterns are selected in consideration, However, as compared with the case where a partition pattern having a large partition probability coefficient is selected from n-gram partition patterns, the partition method can be determined based on more information.
For this reason, when the word string W is divided by the dividing method of the present embodiment, the accuracy of the dividing method is high.
本実施形態では、ルート確率係数を、対応区切パターンの区切確率係数の増加関数として求める。そのため、本実施形態のメニュー表示装置1は、nグラムを含む教師データでその区切り方で区切れている確からしさが大きさほど、その区切パターンが単語列Wの区切り方として選択される確率が高くなるため、教師データの区切り方を単語列Wの区切り方に反映することができる。
In the present embodiment, the root probability coefficient is obtained as an increasing function of the partition probability coefficient of the corresponding partition pattern. For this reason, the
本実施形態では、ある注目nグラムについて生成された区切パターンについて同一の信頼度を定めて補正処理を実行する。そのため、注目nグラムを含む教師データの有無等の注目nグラムと教師データの関係を反映した補正処理を実行できる。 In the present embodiment, the correction process is executed with the same reliability determined for the partition pattern generated for a certain target n-gram. Therefore, it is possible to execute a correction process reflecting the relationship between the target n-gram and the teacher data, such as the presence or absence of teacher data including the target n-gram.
本実施形態では、区切り方を求めるために用いるnグラムの区切パターンの確率係数が、予め記録しているデータ(確率係数リスト)にある場合にはその確率係数を用いる。一方、記録しているデータに無い場合には、より小さい単語列(モノグラム〜n−1グラム)のデータを用いてnグラムの区切パターンの確率係数を算出する。そのため、想定される全てのnグラムについてデータを用意する必要がないため、必要な記録容量が小さい。しかも、確率係数の根拠となる情報の単語長が長いほど、その確率係数が最終結果に与える影響を大きくするように補正する。そのため、小さい単語列のデータを用いて算出した、信頼度の小さいデータが最終結果に与える影響を小さくすることが出来る。そのため、必要な記憶容量が小さくても、区切り方を高い精度で推定することが出来る。 In this embodiment, when the probability coefficient of the n-gram delimiter pattern used for obtaining the delimiter is in the data (probability coefficient list) recorded in advance, the probability coefficient is used. On the other hand, if there is no recorded data, the probability coefficient of the n-gram segmentation pattern is calculated using data of a smaller word string (monogram to n-1 gram). For this reason, since it is not necessary to prepare data for all possible n-grams, the required recording capacity is small. In addition, the longer the word length of the information that becomes the basis of the probability coefficient, the larger the influence of the probability coefficient on the final result is corrected. For this reason, it is possible to reduce the influence of the data with low reliability calculated using the data of the small word string on the final result. For this reason, even when the required storage capacity is small, the separation method can be estimated with high accuracy.
また、本実施形態に係るメニュー表示装置1によれば、教師データが所定のカテゴリの文字列(ここではメニュー)から生成されているため、広範なカテゴリ(例えば日本語全体)の教師データを用いて区切パターンの確率係数を求めた場合よりも、カテゴリに合致した確率係数を求めることが出来る。
そのため、メニュー表示装置1を用いてメニューを分割すると、メニューを分割する精度が高い。
Further, according to the
Therefore, when the menu is divided using the
本実施形態に係るメニュー表示装置1によれば、メニューを画像入力部10を用いて撮影し、OCR20を用いて文字列を認識してメニューを解析・表示することが出来る。そのため、ユーザがメニューの文字列をわざわざ手で入力せずともメニューの文字列を取り込み、解説データを付加して表示することが出来る。そのため、たとえメニューが、ユーザが知らない言語で書かれていて、キーによる入力が困難である場合でも解説データを表示することができる。
According to the
(実施形態2)
次に、本発明の実施形態2に係るメニュー表示装置1について説明する。
本実施形態は、(i)確率係数出力部40が実行する区切確率係数の算出方法が異なる点、(ii)補正部が、信頼度が特に低い場合にコントラストを縮小する補正を実行する点、が実施形態1と異なる。
本実施形態のメニュー表示装置1は、図1に示す実施形態1に係るメニュー表示装置1と同様の構成を持つ。また、メニュー解析部30及びか悪率係数出力部40は、実施形態1に係る同名の部位と同様の構成を持つ。
(Embodiment 2)
Next, the
The present embodiment is different in (i) the method of calculating the break probability coefficient executed by the probability
The
本実施形態のメニュー表示装置1は、図10に示すメニュー表示処理を実施形態1と同様に実行する。
また、図11に示すメニュー分割処理1を、ステップS205で実行するルート確率係数算出処理が図17に示すルート確率係数算出処理2であることを除いて、実施形態1に係るメニュー表示装置1と同様に実行する。
また、図12に示す区切確率係数取得処理1を、ステップS305で実行される確率係数算出処理が、図16に示す確率係数算出処理2であることを除いて、実施形態1に係るメニュー表示装置1と同様に実行する。
The
Further, the
In addition, the menu display device according to the first embodiment is the same as the partition probability
ここで、本実施形態の確率係数出力部40が区切確率係数を算出する方法について、図15を参照して説明する。一例として、本実施形態の確率係数出力部40が、トライグラムの区切パターンを算出するに当たって、前バイグラムと後バイグラムの確率係数を用いて算出する方法を、図15(a)を参照して説明する。
Here, a method by which the probability
このとき、トライグラムの区切パターン(ここでは「0の1赤ワイン0煮1」)の確率係数を算出するにあたって、まず共通する区切フラグを持つ前バイグラム(「0の1赤ワイン0」、確率係数p1=0.31)を対応パターンとして抽出する。そして、後バイグラムにおける対応パターンとして、前バイグラムにおける対応パターンと共通する区切フラグをもつ二つのバイグラムである「1赤ワイン0煮1」(確率係数p2=0.45)と「1赤ワイン0煮0」(確率係数p3=0.11)とを抽出する。
At this time, in calculating the probability coefficient of the trigram division pattern (here, “0 1
そして、前バイグラムの対応パターンの確率係数を、後バイグラムにおける対応パターンの確率係数に基づいて振り分けて、トライグラムの確率係数を算出する。即ち、トライグラムの区切パターンの確率係数を、「0の1赤ワイン0」の次に「1赤ワイン0煮1」が来る場合の確率paとして、p1・(p2/(p2+p3))として算出する。同様に、「0の1赤ワイン0」の次に「1赤ワイン0煮0」が来る確立pbはp1・(p3/(p2+p3))として算出できる。
なお、この算出式は、前(n−1)グラムにおける対応パターンの確率係数p1を後(n−1)グラムにおける対応パターンの確率係数で振り分ける任意の式(例えばpa=p1^2・(p2^2/(p2+p3)^2)に置き換えることができる。
なお、ここでは前の(n−1)グラムにおける対応パターンの確率係数p1を後ろの(n−1)グラムにおける対応パターンの確率係数で振り分けたが、処理の順序は前後逆でも良い。以下同じである。
また、前後それぞれの(n−1)グラムの対応パターンの確率係数と算出値とを対応づけて記憶するテーブルを記憶部470に記憶し、算出式によらずこのテーブルを参照してnグラムの確率係数を求めても良い。
Then, the probability coefficient of the corresponding pattern of the previous bigram is distributed based on the probability coefficient of the corresponding pattern of the subsequent bigram, and the probability coefficient of the trigram is calculated. That is, the probability coefficient of the trigram segmentation pattern is calculated as p1 · (p2 / (p2 + p3)) as the probability pa when “1
This calculation formula is an arbitrary formula (for example, pa =
Here, the probability coefficient p1 of the corresponding pattern in the previous (n-1) gram is sorted by the probability coefficient of the corresponding pattern in the subsequent (n-1) gram, but the processing order may be reversed. The same applies hereinafter.
In addition, a table for storing the probability coefficient of the corresponding pattern of (n-1) grams before and after and the calculated value in association with each other is stored in the
同様に、トライグラムの区切パターンを算出するに当たって、前バイグラムと後モノグラムの確率係数を用いて算出する場合は、前のバイグラムの対応パターンの確率係数を、後ろのモノグラムにおける対応パターンの確率係数に基づいて振り分ける(図15(b))。 Similarly, when calculating the trigram separation pattern using the probability coefficient of the previous bigram and the subsequent monogram, the probability coefficient of the corresponding pattern of the previous bigram is changed to the probability coefficient of the corresponding pattern of the subsequent monogram. Based on the distribution (FIG. 15B).
また、トライグラムの区切パターンを、モノグラムの確率係数のみを用いて算出する方法を図15(c)を参照して説明する。このとき、まず前モノグラムにおける対応パターンの確率係数p7を後モノグラムにおける対応パターンの確率係数p8とp9に振り分けて、前バイグラムの確率係数p10を求める(c1)。そして、(c1)で求めた前バイグラムにおける確率係数p10を用いて、図15(b)と同様にトライグラムの確率係数を算出する。 A method for calculating the trigram segmentation pattern using only the monogram probability coefficient will be described with reference to FIG. At this time, first, the probability coefficient p7 of the corresponding pattern in the previous monogram is assigned to the probability coefficients p8 and p9 of the corresponding pattern in the subsequent monogram to obtain the probability coefficient p10 of the previous bigram (c1). Then, using the probability coefficient p10 in the previous bigram obtained in (c1), the trigram probability coefficient is calculated in the same manner as in FIG.
このとき、算出の根拠として用いた区切パターンの単語長の平均値を、根拠単語長として定める。例えば、図15(a)及び(b)のように、2つのバイグラムを用いてトライグラムの確率係数を求めた場合、根拠単語列長を(2+2)/2=2とする。また、図15(c)の用に、1つのバイグラムと、2つのモノグラムと、を用いて確率係数を求めた場合に、根拠単語列長を(1+1+2)/3=1.33とする。 At this time, an average value of the word lengths of the division patterns used as the basis for the calculation is determined as the basis word length. For example, as shown in FIGS. 15A and 15B, when the trigram probability coefficient is obtained using two bigrams, the basis word string length is (2 + 2) / 2 = 2. Further, when the probability coefficient is obtained by using one bigram and two monograms for FIG. 15C, the basis word string length is set to (1 + 1 + 2) /3=1.33.
本実施形態で実行される確率係数算出処理2の流れについて、図16を参照して説明する。確率係数算出処理2では、まず(n−1)グラム生成部430が注目文字列(nグラム)の部分列である(n−1)グラムを二つ(ここでは前バイグラムと後バイグラム)を生成して、何れかのバイグラム(ここでは前バイグラム)に注目する(ステップS601)。
The flow of the probability
次に、判別部420が、注目バイグラム(前バイグラム)について、確率係数が取得可能であるか、区切確率係数取得処理(図12)のステップS302と同様に確率係数記憶部4710に記憶された確率係数リストを参照して判別する(ステップS602)。
Next, whether the
前バイグラムのデータが確率係数リストにある場合(ステップS602;YES)は、前バイグラムについて確率係数を取得できると判断できるので、注目バイグラム(前バイグラム)について対応パターンを特定し、その区切確率係数を取得する(ステップS603)。 If the data of the previous bigram is in the probability coefficient list (step S602; YES), it can be determined that the probability coefficient can be acquired for the previous bigram. Obtain (step S603).
前バイグラムのデータが確率係数リストに無い場合(ステップS602;NO)は、前バイグラムについて確率係数を取得できないと判断できるので、モノグラムを用いて前バイグラムの確率係数を算出する。即ち、現在のn−1が1でないか判別し(ステップS604)、1で無い場合は(ステップS604;NO)、nを1減算して2とし(ステップS605)、減算したnで前バイグラムを注目nグラムとして確率係数算出処理2を再帰的に実行して、区切パターンを生成し、その区切確率係数を取得する(ステップS606)。
If the previous bigram data is not in the probability coefficient list (step S602; NO), it can be determined that the probability coefficient cannot be obtained for the previous bigram, so the probability coefficient of the previous bigram is calculated using the monogram. That is, it is determined whether the current n-1 is not 1 (step S604). If it is not 1 (step S604; NO), n is decremented by 1 to 2 (step S605), and the previous bigram is subtracted by the subtracted n. Probability
一方、n−1が1である場合(ステップS604;YES)、さらにnを減少させることが出来ないため、確率係数が取得不能なモノグラムについて、区切パターンを生成しその確率係数をデフォルト値(ここでは0.5)とする(ステップS607)。 On the other hand, when n-1 is 1 (step S604; YES), since n cannot be further reduced, a delimiter pattern is generated for a monogram for which a probability coefficient cannot be obtained, and the probability coefficient is set to a default value (here Is 0.5) (step S607).
次に、前後両方の(n−1)グラムについて処理が終了したか判別する(ステップS608)。前後どちらかの(n−1)グラムについて、確率係数を取得していない場合は(ステップS608;NO)、未処理の(n−1)グラムを注目(n−1)グラムとして(ステップS609)、ステップS602から処理を繰り返す。 Next, it is determined whether or not the processing has been completed for both (n-1) grams before and after (step S608). If the probability coefficient has not been acquired for either (n-1) gram before or after (step S608; NO), the unprocessed (n-1) gram is regarded as the attention (n-1) gram (step S609). The process is repeated from step S602.
一方、前後両方の(n−1)グラムについて確率係数を取得し終えたと判別すると(ステップS608;YES)、次に前後両方の(n−1)グラムの確率係数から、図15で例示したように、注目区切パターンの確率係数を算出する(ステップS610)。そして、ステップS609で算出の根拠として用いた区切パターンの単語長の平均値を、根拠単語長として定める(ステップS611)。
そして、確率係数算出処理2は終了する。
On the other hand, if it is determined that the probability coefficients have been acquired for both (n-1) grams before and after (step S608; YES), the probability coefficients of both (n-1) grams before and after are illustrated in FIG. In addition, the probability coefficient of the target separation pattern is calculated (step S610). Then, the average value of the word lengths of the delimiter patterns used as the basis for calculation in step S609 is determined as the basis word length (step S611).
Then, the probability
本実施形態のメニュー分割処理1(図11)のステップS205で実行される確率係数算出処理2を、図17を参照して説明する。ルート確率係数算出処理2では、まず信頼度定義部3620が図14に示すルート確率係数算出処理1と同様に、信頼係数を定義する(ステップS701)。
The probability
さらに、補正部3630が、ステップS701で定めた信頼係数が所定の閾値th1(例えば2)以上であるか判別する(ステップS702)。閾値th1以上であった場合(ステップS702;YES)、その確率係数は信頼度が高いので、コントラストを拡大して影響を高める補正処理を実行する(ステップS703)。具体的には、取得した確率係数を二乗して、補正後の確率係数とする。
Further, the
一方、信頼係数が閾値th1より小さい場合(ステップS702;NO)、さらにステップS701で定めた信頼係数が所定の閾値th2(例えば1.3)以上であるか判別する(ステップS704)。閾値th1以上であった場合(ステップS704;YES)、その確率係数は信頼度が中程度であるとの判断の元、区切確率係数を補正せずそのまま利用することとし、ステップS706にスキップする。一方、信頼係数が閾値th2より小さい場合(ステップS704;NO)、信頼度が低いとの判断に基づき、コントラストを縮小してその影響を低くする補正処理を実行する(ステップS705)。具体的には、取得した区切確率係数の平方根を補正後の区切確率係数とする。 On the other hand, if the reliability coefficient is smaller than the threshold th1 (step S702; NO), it is further determined whether or not the reliability coefficient determined in step S701 is greater than or equal to a predetermined threshold th2 (eg, 1.3) (step S704). If it is equal to or greater than the threshold th1 (step S704; YES), the probability coefficient is used as it is without correction based on the determination that the reliability is medium, and the process skips to step S706. On the other hand, when the reliability coefficient is smaller than the threshold th2 (step S704; NO), based on the determination that the reliability is low, a correction process for reducing the influence by reducing the contrast is executed (step S705). Specifically, the square root of the obtained partitioning probability coefficient is set as the corrected partitioning probability coefficient.
以下、ステップS706〜ステップS708を、図14のステップS504〜S506と同様に実行して、ルート確率係数を算出する。 Thereafter, steps S706 to S708 are executed in the same manner as steps S504 to S506 in FIG. 14 to calculate the root probability coefficient.
以上説明したように、本実施形態のメニュー表示装置1は、区切り方を定めるにあたって、信頼度が高いnグラムについては区切パターンの確率係数のコントラストを高め、低いnグラムについてはコントラストを低める。そのため、データの信頼度をより反映し、より高い精度で単語列の区切り方を定めることが出来る。
As described above, the
また、本実施形態に係る確率係数出力部40によれば、注目するnグラムを含む教師データが十分に得られない場合、前のn−1グラム(注目n−1グラム)について得られる確率変数を、後ろのn−1グラムに振り分けてnグラムにおける区切パターンの確率変数を算出する(あるいはその逆)。
即ち、(n−1)グラム列で教師データを分割して、ある区切パターンの区切方を、その区切パターンの区切方で区切れるとした場合にあり得る次の区切パターンの確率に基づいて分配してnグラムの確率係数を算出するため、より多くの情報に基づいて確率係数を算出することができる。さらに、算出の根拠となった単語列の長さによって信頼度を定め、信頼できる確率係数が与える影響を大きくし、信頼できない確率係数が与える影響を小さくする。そのため、算出精度が高い。
Further, according to the probability
That is, (n-1) the teacher data is divided by the gram sequence, and the division method of a certain division pattern is divided based on the probability of the next division pattern that can be divided by the division method of the division pattern. Since the n-gram probability coefficient is calculated, the probability coefficient can be calculated based on more information. Further, the reliability is determined by the length of the word string that is the basis of the calculation, the influence of the reliable probability coefficient is increased, and the influence of the unreliable probability coefficient is reduced. Therefore, the calculation accuracy is high.
また、(n−1)グラムの一部について確率係数が得られない場合でも、得られる限りの(n−1)グラムの確率係数を利用してnグラムの確率係数を算出できるため、一律に(n−2)グラム〜モノグラムの確率係数を用いる場合と比べて精度の劣化が少ない。 In addition, even when the probability coefficient cannot be obtained for a part of (n-1) grams, the probability coefficient of n grams can be calculated using the probability coefficient of (n-1) grams as long as it can be obtained. (N-2) There is little deterioration in accuracy compared with the case of using a probability coefficient of gram to monogram.
(変形例)
以上、本発明の実施形態1乃至2について説明したが、本発明の実施形態はこれに限られない。
例えば、上記説明では信頼係数を、区切確率係数の根拠となる単語列の長さである根拠単語列長としたが、本発明の信頼係数はこれに限られない。信頼係数は、区切確率係数の信頼度を表す任意の係数に代替可能である。例えば、信頼係数は区切確率係数を算出した根拠となる教師データの数であってよい。このような場合の構成として、例えばデータ記憶部702に下記するnグラムリストを記憶しておき、このnグラムリストを用いて信頼係数を定めるとすることができる。
(Modification)
As mentioned above, although
For example, in the above description, the reliability coefficient is the basis word string length that is the length of the word string that is the basis of the break probability coefficient, but the reliability coefficient of the present invention is not limited to this. The reliability coefficient can be replaced with an arbitrary coefficient representing the reliability of the division probability coefficient. For example, the confidence coefficient may be the number of teacher data that is the basis for calculating the partition probability coefficient. As a configuration in such a case, for example, the following n-gram list may be stored in the
nグラムリストは、確率係数リストに登録されているnグラムが、確率係数を算出するにあたって参照した、そのnグラムを含む教師データの数を示すリストである。
nグラムリストの例を、図18を参照して説明する。図18の例では、データ記憶部702はnグラムリストとして、トライグラムリスト(図18(a))、バイグラムリスト(図18(b))、モノグラムリスト(図18(c))、をそれぞれ記憶する。
トライグラムリストは、教師データに現れる全てのトライグラムを、そのトライグラムを含む教師データが幾つあるかを示すデータ数と関連付けて記憶している。バイグラムリスト、モノグラムリストについても同様である。例えば、図8の確率係数リストのあるバイグラム(豚−バラ)について、図18(b)のバイグラムリストでデータ数が2830であることがわかる。これは、2830個の「豚バラ」という単語列を含む教師データから、図8の豚−バラの列の確率係数が算出されたことを示す。
The n-gram list is a list indicating the number of teacher data including n-grams that the n-gram registered in the probability coefficient list refers to when calculating the probability coefficient.
An example of the n-gram list will be described with reference to FIG. In the example of FIG. 18, the
The trigram list stores all the trigrams appearing in the teacher data in association with the number of data indicating how many teacher data includes the trigram. The same applies to the bigram list and the monogram list. For example, for the bigram (pig-rose) with the probability coefficient list of FIG. 8, the number of data is 2830 in the bigram list of FIG. This indicates that the probability coefficient of the pig-rose sequence in FIG. 8 has been calculated from the teacher data including the word sequence of 2830 “pig roses”.
確率係数を求めた教師データの母数が大きい確率係数は、少ない母数の教師データから求めた確率係数よりも、より信頼度が高いと考えられる。そこで、この確率係数リストに記録された母数を、そのnグラムの確率係数の根拠情報とすることが出来る。そして、母数である根拠情報に基づき、信頼係数を算出する。たとえば、母数の自然対数を信頼係数とすることが出来る。 A probability coefficient having a large parameter of the teacher data for which the probability coefficient is obtained is considered to be more reliable than a probability coefficient obtained from the teacher data having a small parameter. Therefore, the parameters recorded in the probability coefficient list can be used as the basis information for the probability coefficient of the n-gram. Then, a confidence coefficient is calculated based on the basis information that is a parameter. For example, the natural logarithm of the parameter can be used as the reliability coefficient.
また、上記説明では確率係数は確率係数リストに記録されているとしたが、教師データから逐一区切確率係数を取得する構成も可能である。具体的には、データ記憶部702に教師データを大量に記録しておき、区切パターンについて、次の手順で確率係数を取得する。まず、注目nグラムを含む教師データを抽出する。このとき抽出されたデータ数をn1とする。さらに、抽出された教師データの対応部分の区切フラグと、区切パターンの区切フラグとを比較し、同一の区切れ方をしている教師データを抽出する。このとき抽出されたデータ数をn2とする。区切確率係数pは、n1とn2の比で求められる。
すなわち、
p=n2/n1・・・(1)
である。
In the above description, the probability coefficient is recorded in the probability coefficient list. However, it is also possible to obtain a delimiter probability coefficient from the teacher data. Specifically, a large amount of teacher data is recorded in the
That is,
p = n2 / n1 (1)
It is.
さらに、上記説明ではあるnグラムについて一つの根拠情報及び信頼係数を定義した。しかし、区切パターン毎に信頼係数を定義することも可能である。このような構成例として、以下が考えられる。
教師データがさまざまなカテゴリのメニュー(例えば中華料理、日本料理、イタリア料理、等)を含んでおり、各教師データにカテゴリを示すフラグが定義されているとする。そして、設定情報においてあるカテゴリ(例えば中華料理)のメニューを分割することが指定されていたとする。そして、上記のように教師データから式(1)を用いて確率係数を求めた場合に、n1あるいはn2を抽出した基となる教師データにおける、そのカテゴリ(中華料理)のメニューの割合を根拠情報とし、この根拠情報を基に信頼係数を求める。即ち、単語列Wと教師データとの結びつきの強さを根拠情報とする。
Furthermore, in the above description, one basis information and a reliability coefficient are defined for an n-gram. However, it is possible to define a confidence coefficient for each separation pattern. The following can be considered as an example of such a configuration.
It is assumed that the teacher data includes menus of various categories (for example, Chinese food, Japanese food, Italian food, etc.), and a flag indicating the category is defined in each teacher data. Then, it is assumed that the menu of a certain category (for example, Chinese food) is specified to be divided in the setting information. When the probability coefficient is obtained from the teacher data using the formula (1) as described above, the ratio of the menu of the category (Chinese food) in the teacher data that is the basis of extracting n1 or n2 is the basis information. And the reliability coefficient is obtained based on the ground information. That is, the strength of the connection between the word string W and the teacher data is used as the ground information.
このように、区切パターン毎に信頼係数を定義した場合、共通のnグラムについての信頼係数を平均してnグラムの信頼係数として上記処理を実行するとしてもよい。また、最終ルート確率係数を算出するに当たって、信頼係数が所定の閾値より低い区切パターンの確率係数を、その列のもう一方のルートの区切確率係数と同じとする、とする処理も可能である。 As described above, when the reliability coefficient is defined for each delimiter pattern, the above process may be executed by averaging the reliability coefficients for the common n-grams as the n-gram reliability coefficient. Further, in calculating the final route probability coefficient, it is also possible to make the probability coefficient of the separation pattern whose reliability coefficient is lower than a predetermined threshold value the same as the separation probability coefficient of the other route in the column.
また、上記説明した構成を組み合わせることも可能である。例えば、根拠情報として根拠単語列長と母数とを取得し、根拠単語列長と母数とを変数とする予め定めた算出式により信頼係数を求めることが考えられる。 It is also possible to combine the above-described configurations. For example, it is conceivable that the basis word string length and the parameter are acquired as the basis information, and the reliability coefficient is obtained by a predetermined calculation formula using the basis word string length and the parameter as variables.
また、拡大補正の方法は信頼度が高いnグラムの確率係数がよりルートの選定に与える影響を高めるさまざまな方法で代替可能である。その他の補正例を、図19(a)を参照して説明する。図19(a)は、補正前の確率係数を横軸(x軸)で、補正後の確率係数を縦軸(y軸)で表したグラフである。補正をxを変数とする関数f(x)で示す。補正をしない場合、f(x)は点線でしめすようにy=xの直線である。 The enlargement correction method can be replaced by various methods that increase the influence of the highly reliable n-gram probability coefficient on route selection. Another correction example will be described with reference to FIG. FIG. 19A is a graph showing the probability coefficient before correction on the horizontal axis (x-axis) and the probability coefficient after correction on the vertical axis (y-axis). The correction is indicated by a function f (x) where x is a variable. When correction is not performed, f (x) is a straight line of y = x as shown by a dotted line.
図19(a)の実線は、y=xと所定の閾値に対応する点で交差するシグモイド関数を用いた場合の補正例である。このような関数を用いれば、注目nグラムの区切パターンの確率係数のうち、補正前に閾値以上である確率係数は大きくなり、閾値以下である確率係数は小さくなる。また、このようなシグモイド曲線の曲率・閾値を、信頼係数が高いほどよりコントラストが高まるように設定しても良い。 A solid line in FIG. 19A is a correction example in the case of using a sigmoid function that intersects y = x at a point corresponding to a predetermined threshold. If such a function is used, the probability coefficient that is equal to or greater than the threshold value before correction is increased, and the probability coefficient that is equal to or less than the threshold value is decreased among the probability coefficients of the partition pattern of the target n-gram. Further, the curvature / threshold of such a sigmoid curve may be set such that the higher the reliability coefficient, the higher the contrast.
シグモイド関数を用いた補正によれば、ルート確率係数において所定の閾値を境界としてコントラストを強調し、その注目nグラムのデータが、ルート算出においてより大きく影響するようにすることができる。
縮小補正については、逆に図19(b)に示すような所定の閾値以上の値を減少させ、所定の閾値以下の値を増加させるシグモイド曲線を用いて実行する。
According to the correction using the sigmoid function, it is possible to emphasize the contrast with a predetermined threshold in the route probability coefficient as a boundary, and the data of the noticed n-gram has a greater influence on the route calculation.
On the other hand, the reduction correction is performed using a sigmoid curve that decreases a value that is equal to or greater than a predetermined threshold and increases a value that is equal to or less than the predetermined threshold as shown in FIG.
また、有効な補正の方法は区切パターンの確率係数からルート確率係数の算出方法によっても変化する。例えば、対応する区切パターンの確率係数を加算してルート確率係数の算出を行う場合、確率係数を整数倍する処理を拡大補正とするとし、整数で除算する処理を縮小補正とすることも可能である。 Also, the effective correction method varies depending on the calculation method of the root probability coefficient from the probability coefficient of the division pattern. For example, when the root probability coefficient is calculated by adding the probability coefficients of the corresponding delimiter patterns, the process of multiplying the probability coefficient by an integer can be an enlargement correction, and the process of dividing by an integer can be a reduction correction. is there.
例えば、上記実施形態1乃至2では、画像入力部10が撮影した画像から単語列Wを抽出したが、ユーザがキーボードを用いて入力した文字列から単語列Wを抽出してもよい。また、音声データから音声認識により文字列を取得しても良い。
For example, in
また、上記実施形態1乃至2では、変換部は単語毎に用語辞書に登録された解説文を付して表示データを作成した。
しかし、本願発明において、分割された単語列を用いて表示データを作成する方法はこれに限られない。例えば、分割された単語列を部分列毎に任意の翻訳器を用いて翻訳し、翻訳結果を表示データとしてもよい。このようなメニュー表示装置によれば、入力されたメニューが例えば中国語であった場合に、日本語だけを理解し、中国語の文字列をキーボードを用いて入力できないユーザであっても、メニューを撮影する操作を実行すれば日本語でメニューの概要を表示することが出来る。
In the first and second embodiments, the conversion unit creates display data by adding a comment sentence registered in the term dictionary for each word.
However, in the present invention, the method of creating display data using the divided word strings is not limited to this. For example, the divided word string may be translated for each partial string using an arbitrary translator, and the translation result may be used as display data. According to such a menu display device, even if a user who understands only Japanese and cannot input a Chinese character string using a keyboard when the input menu is, for example, Chinese, the menu You can display the menu summary in Japanese if you perform an operation to shoot.
また、部分列を検索キーワードとして用語辞書等のデータベースを検索し、検索結果を表示データとしてもよい。
さらに、分割された部分列をキーワードとして画像検索し、得られた画像を表示データとして表示しても良い。
このような構成により、例えば部分列が「茎」「ワカメ」や「白ワイン」「蒸し」で有った場合、「茎」と「ワカメ」、「白ワイン」と「蒸し」がひとくくりであることと共に、「茎ワカメ」及び「白ワイン蒸し」についての解説を表示することが出来る。
Alternatively, a database such as a term dictionary may be searched using the partial sequence as a search keyword, and the search result may be used as display data.
Furthermore, an image search may be performed using the divided partial sequences as keywords, and the obtained image may be displayed as display data.
With such a configuration, for example, when the subsequence is “stem”, “wakame”, “white wine”, and “steamed”, “stem” and “wakame”, “white wine” and “steamed” are all gathered. At the same time, the explanation about “Stem Wakame” and “Steamed White Wine” can be displayed.
また、上記実施形態1乃至2では、解析対象となる単語列はメニューであったが、本発明はメニュー以外の任意のカテゴリの単語列について応用可能である。本発明の解析対象となる単語列は、現れる単語が限られていること、単語と単語との区切り方のルールが限定されていること、を特徴とするカテゴリの単語列であることが好ましい。このようなカテゴリの単語列の例として、メニューの他に住所、薬品の効能書き・説明書、等があげられる。 In the first and second embodiments, the word string to be analyzed is a menu, but the present invention can be applied to word strings of any category other than the menu. The word string to be analyzed according to the present invention is preferably a word string of a category characterized by the fact that the words that appear are limited and the rules for how to separate the words are limited. Examples of such a word string of categories include an address, a medicinal effect description / instruction, etc. in addition to a menu.
さらに、上記実施形態では単語列の先頭及び末尾について特別の処理を実行しなかった。しかし、本発明では、単語列の先頭に先頭であることを示す記号(SOS;Start of sentence)を、末尾に末尾であることを示す記号(EOS;End of sentence)をそれぞれダミー単語として配置して上記処理を実行しても良い。この場合、教師データは単語列の先頭にSOSを、末尾にEOSを配置したデータとなる。また、nグラム列生成部330は、nグラム列を生成するに当たって、先頭にSOSを、末尾にEOSを配置してnグラム列を生成する。
これにより、単語列Wの区切り方を、単語列の先頭・末尾の位置を考慮して推測することが出来る。そのため、高い精度で単語列を区切ることが出来る。
Further, in the above embodiment, no special processing is executed for the beginning and end of the word string. However, in the present invention, a symbol (SOS; Start of sentence) indicating the beginning and a symbol (EOS; End of sentence) indicating the end are arranged as dummy words at the beginning of the word string. The above process may be executed. In this case, the teacher data is data in which SOS is arranged at the beginning of the word string and EOS is arranged at the end. In addition, when generating the n-gram sequence, the n-gram
Thereby, it is possible to infer how to divide the word string W in consideration of the positions of the beginning and end of the word string. Therefore, the word string can be separated with high accuracy.
また、情報処理部701、データ記憶部702,プログラム記憶部703、等から構成されるメニュー表示装置のための処理を行う中心となる部分は、専用のシステムによらず、通常のコンピュータシステムを用いて実現可能である。たとえば、前記の動作を実行するためのコンピュータプログラムを、コンピュータが読み取り可能な記録媒体(フレキシブルディスク、CD−ROM、DVD−ROM等)に格納して配布し、当該コンピュータプログラムをコンピュータにインストールすることにより、前記の処理を実行する情報端末を構成してもよい。また、インターネット等の通信ネットワーク上のサーバ装置が有する記憶装置に当該コンピュータプログラムを格納しておき、通常のコンピュータシステムがダウンロード等することで情報処理装置を構成してもよい。
In addition, the central part that performs processing for the menu display device including the
また、メニュー表示装置の機能を、OS(オペレーティングシステム)とアプリケーションプログラムの分担、またはOSとアプリケーションプログラムとの協働により実現する場合などには、アプリケーションプログラム部分のみを記録媒体や記憶装置に格納してもよい。 Further, when the function of the menu display device is realized by sharing the OS (operating system) and the application program or by cooperation between the OS and the application program, only the application program portion is stored in the recording medium or the storage device. May be.
また、搬送波にコンピュータプログラムを重畳し、通信ネットワークを介して配信することも可能である。たとえば、通信ネットワーク上の掲示板(BBS:Bulletin Board System)に前記コンピュータプログラムを掲示し、ネットワークを介して前記コンピュータプログラムを配信してもよい。そして、このコンピュータプログラムを起動し、OSの制御下で、他のアプリケーションプログラムと同様に実行することにより、前記の処理を実行できるように構成してもよい。 It is also possible to superimpose a computer program on a carrier wave and distribute it via a communication network. For example, the computer program may be posted on a bulletin board (BBS: Bulletin Board System) on a communication network, and the computer program may be distributed via the network. The computer program may be started and executed in the same manner as other application programs under the control of the OS, so that the above-described processing may be executed.
また、上記メニュー表示装置が実行する処理の一部を、メニュー表示装置とは独立したコンピュータを用いて実現しても良い。 Moreover, you may implement | achieve a part of process which the said menu display apparatus performs using the computer independent of the menu display apparatus.
以上、本発明の好ましい実施形態について説明したが、本発明は係る特定の実施形態に限定されるものではなく、本発明には、特許請求の範囲に記載された発明とその均等の範囲が含まれる。以下に、本願出願の当初の特許請求の範囲に記載された発明を付記する。 As mentioned above, although preferable embodiment of this invention was described, this invention is not limited to the specific embodiment which concerns, This invention includes the invention described in the claim, and its equivalent range It is. Hereinafter, the invention described in the scope of claims of the present application will be appended.
(付記1)
解析対象となる単語列を取得する単語列取得部と、
前記単語列取得部が取得した単語列に含まれる単語から構成される部分列を抽出する抽出部と、
前記抽出部が抽出した部分列に含まれる単語と単語との間である語間のそれぞれについて、その語間で前記単語列取得部が取得した単語列が区切れる場合と区切れない場合とに対応する区切パターンを、複数生成するパターン生成部と、
前記抽出部が抽出した部分列のそれぞれについて、当該部分列を含む教師単語列において、前記パターン生成部が生成した区切パターンそれぞれに対応する区切れ方で教師単語列が区切れる確からしさである区切確率係数を区切パターン毎に取得する確率係数取得部と、
前記確率係数取得部が取得した確率係数の信頼度を定義する信頼度定義部と、
前記抽出部が抽出した部分列のそれぞれについて前記パターン生成部が生成した複数の区切パターンから、前記確率係数取得部が取得した当該区切パターンの区切確率係数と、当該区切確率係数について前記信頼度定義部が定義した信頼度と、当該区切パターンの部分列と対応する語間を含む部分列である隣接部分列の区切パターンのうち対応する語間について同じ区切り方を示す対応隣接区切パターンの区切確率係数と、に基づいて前記単語列取得部が取得した単語列の区切り方を示す区切パターンを選択する選択部と、
前記選択部が選択した区切パターンの区切り方で、前記単語列取得部が取得した単語列を分割する分割部と、
を備えることを特徴とする情報処理装置。
(Appendix 1)
A word string acquisition unit for acquiring a word string to be analyzed;
An extraction unit for extracting a partial sequence composed of words included in the word sequence acquired by the word sequence acquisition unit;
For each of the words between the words included in the partial sequence extracted by the extraction unit, when the word sequence acquired by the word sequence acquisition unit between the words and when not separated A pattern generation unit that generates a plurality of corresponding delimiter patterns;
For each partial sequence extracted by the extraction unit, in the teacher word sequence including the partial sequence, a delimitation that is a probability that the teacher word sequence is delimited by a delimiter corresponding to each delimiter pattern generated by the pattern generation unit A probability coefficient acquisition unit for acquiring a probability coefficient for each separation pattern;
A reliability definition unit that defines the reliability of the probability coefficient acquired by the probability coefficient acquisition unit;
For each of the partial sequences extracted by the extraction unit, from the plurality of division patterns generated by the pattern generation unit, the division probability coefficient of the division pattern acquired by the probability coefficient acquisition unit, and the reliability definition for the division probability coefficient The division probability of the corresponding adjacent delimiter pattern that indicates the same delimitation method between the corresponding words among the delimiters of the adjacent subsequence that is the subsequence including the word space corresponding to the reliability defined by the division and the substring of the delimiter pattern A selection unit that selects a delimiter pattern indicating how to delimit the word string acquired by the word string acquisition unit based on a coefficient;
A dividing unit that divides the word string acquired by the word string acquisition unit in a method of dividing the separation pattern selected by the selection unit;
An information processing apparatus comprising:
(付記2)
前記パターン生成部が生成した区切パターンの少なくとも一部について前記確率係数取得部が取得した区切確率係数を、当該区切確率係数について前記信頼度定義部が定義した信頼度に基づいて補正する補正部をさらに備え、
前記選択部は、前記補正部が補正した当該区切パターンの区切確率係数と、当該区切パターンの対応隣接区切パターンの区切確率係数と、に基づいて前記単語列取得部が取得した単語列の区切り方を示す区切パターンを選択する、
ことを特徴とする付記1に記載の情報処理装置。
(Appendix 2)
A correction unit that corrects the partition probability coefficient acquired by the probability coefficient acquisition unit for at least a part of the partition pattern generated by the pattern generation unit based on the reliability defined by the reliability definition unit for the partition probability coefficient. In addition,
The selection unit is configured to delimit the word string acquired by the word string acquisition unit based on the delimitation probability coefficient of the delimiter pattern corrected by the correction unit and the delimitation probability coefficient of the corresponding adjacent delimiter pattern of the delimiter pattern Select a delimiter pattern that indicates
The information processing apparatus according to
(付記3)
前記補正部は、前記信頼度定義部が定義した信頼度が所定の水準よりも高い区切パターンの補正後の区切確率係数が、信頼度が所定の水準以下である区切パターンの区切り確率係数よりも前記選択部の選択により大きな影響を与えるように当該区切確率係数を補正する、
ことを特徴とする付記2に記載の情報処理装置。
(Appendix 3)
The correction unit has a division probability coefficient after correction of a division pattern whose reliability defined by the reliability definition unit is higher than a predetermined level is higher than a division probability coefficient of a division pattern whose reliability is equal to or lower than a predetermined level. Correcting the separation probability coefficient so as to have a greater influence on the selection of the selection unit,
The information processing apparatus according to
(付記4)
前記信頼度定義部は、前記抽出部が抽出した各部分列について定義された前記区切パターンについて共通の信頼度を定義し、
前記補正部は、前記共通の信頼度をもつ各部分列の区切確率係数のうち前記信頼度が大きい集合の中で、区切確率係数が大きいものと、小さいものとの差を拡大するように補正する、
ことを特徴とする付記2又は3に記載の情報処理装置。
(Appendix 4)
The reliability definition unit defines a common reliability for the partition pattern defined for each partial sequence extracted by the extraction unit,
The correction unit corrects the difference between the one having a large delimitation probability coefficient and the small one in the set having a high reliability among the delimitation probability coefficients of the partial sequences having the common reliability. To
The information processing apparatus according to
(付記5)
前記確率係数取得部は、前記区切パターンの区切確率係数を、当該区切パターンに対応する部分列を含む教師単語列に基づいて取得できるか否かを判別し、取得できない場合は当該部分列の部分列である小部分列を含む教師単語列に基づいて当該区切確率係数を取得し、
前記信頼度定義部は、前記区切確率係数を取得するにあたって用いた部分列若しくは小部分列の単語長に基づいて、前記区切確率係数の信頼度を定める、
ことを特徴とする付記1乃至4の何れか一つに記載の情報処理装置。
(Appendix 5)
The probability coefficient acquisition unit determines whether or not the delimitation probability coefficient of the delimiter pattern can be acquired based on a teacher word string including a partial sequence corresponding to the delimiter pattern. Based on a teacher word sequence including a small subsequence that is a sequence,
The reliability defining unit determines the reliability of the delimitation probability coefficient based on the word length of the subsequence or small subsequence used in obtaining the delimitation probability coefficient.
The information processing apparatus according to any one of
(付記6)
前記確率係数取得部は、前記区切パターンの区切確率係数の根拠となる教師単語列の数をさらに取得し、
前記信頼度定義部は、前記確率係数取得部が取得した、前記区切パターンの区切確率係数の根拠となる教師単語列の数に基づいて前記区切確率係数の信頼度を定める、
ことを特徴とする付記1乃至5の何れか一つに記載の情報処理装置。
(Appendix 6)
The probability coefficient acquisition unit further acquires the number of teacher word strings that serve as a basis for the partition probability coefficient of the partition pattern,
The reliability definition unit determines the reliability of the delimitation probability coefficient based on the number of teacher word strings that is acquired by the probability coefficient acquisition unit and serves as a basis for the delimitation probability coefficient of the delimitation pattern.
The information processing apparatus according to any one of
(付記7)
文字列の画像を撮影する撮影部と、
前記撮影部が撮影した画像から文字列を抽出する文字列抽出部と、
前記文字列抽出部か抽出した文字列から単語列を生成する単語列生成部と、
前記単語列生成部が生成した単語列に含まれる単語から構成される部分列を抽出する部分列抽出部と、
前記部分列抽出部が抽出した部分列に含まれる単語と単語との間である語間のそれぞれについて、その語間で前記単語列生成部が生成した単語列が区切れる場合と区切れない場合とに対応する区切パターンを、複数生成するパターン生成部と、
前記部分列抽出部が抽出した部分列のそれぞれについて、当該部分列を含む教師単語列において、前記パターン生成部が生成した区切パターンそれぞれに対応する区切れ方で教師単語列が区切れる確からしさである区切確率係数を区切パターン毎に取得する確率係数取得部と、
前記確率係数取得部が取得した確率係数の信頼度を定義する信頼度定義部と、
前記部分列抽出部が抽出した部分列のそれぞれについて前記パターン生成部が生成した複数の区切パターンから、前記確率係数取得部が取得した当該区切パターンの区切確率係数と、当該区切確率係数について前記信頼度定義部が定義した信頼度と、当該区切パターンの部分列と対応する語間を含む部分列である隣接部分列の区切パターンのうち対応する語間について同じ区切り方を示す対応隣接区切パターンの区切確率係数と、に基づいて前記単語列生成部が生成した単語列の区切り方を示す区切パターンを選択する選択部と、
前記選択部が選択した区切パターンの区切り方で、前記単語列生成部が生成した単語列を分割する分割部と、
前記分割部が分割した単語列のそれぞれを、当該分割した単語列に含まれる単語又は単語列に対応する表示データに変換する変換部と、
前記変換部が変換した表示データを表示する表示部と、
を備えることを特徴とするデータ表示装置。
(Appendix 7)
A shooting unit for shooting images of character strings;
A character string extraction unit that extracts a character string from an image captured by the imaging unit;
A word string generation unit that generates a word string from the character string extracted by the character string extraction unit;
A partial sequence extraction unit that extracts a partial sequence composed of words included in the word sequence generated by the word sequence generation unit;
When each of the words between the words included in the partial sequence extracted by the partial sequence extraction unit is separated from the word sequence generated by the word sequence generation unit between the words A pattern generation unit that generates a plurality of delimiter patterns corresponding to
For each partial sequence extracted by the partial sequence extraction unit, in the teacher word sequence including the partial sequence, there is a certainty that the teacher word sequence will be divided according to the division method corresponding to each division pattern generated by the pattern generation unit. A probability coefficient acquisition unit that acquires a certain delimitation probability coefficient for each delimiter pattern;
A reliability definition unit that defines the reliability of the probability coefficient acquired by the probability coefficient acquisition unit;
The partition probability coefficient of the partition pattern acquired by the probability coefficient acquisition unit from the plurality of partition patterns generated by the pattern generation unit for each of the partial sequences extracted by the partial sequence extraction unit, and the reliability of the partition probability coefficient The degree of reliability defined by the degree definition section and the corresponding adjacent delimiter pattern that indicates the same delimitation method for the corresponding words among the delimiters of the adjacent substring that is the substring including the word spaces corresponding to the substring of the delimiter pattern. A selection unit that selects a delimiter pattern indicating how to delimit the word string generated by the word string generation unit based on a delimiter probability coefficient;
A dividing unit that divides the word string generated by the word string generation unit in a way of dividing the separation pattern selected by the selection unit;
A conversion unit that converts each of the word strings divided by the dividing unit into display data corresponding to words or word strings included in the divided word strings;
A display unit for displaying the display data converted by the conversion unit;
A data display device comprising:
(付記8)
コンピュータに、
解析対象となる単語列を取得する処理、
前記取得した単語列に含まれる単語から構成される部分列を抽出する処理、
前記抽出した部分列に含まれる単語と単語との間である語間のそれぞれについて、その語間で前記取得した単語列が区切れる場合と区切れない場合とに対応する区切パターンを、複数生成する処理、
前記抽出した部分列のそれぞれについて、当該部分列を含む教師単語列において、前記生成した区切パターンそれぞれに対応する区切れ方で教師単語列が区切れる確からしさである区切確率係数を区切パターン毎に取得する処理、
前記取得した確率係数の信頼度を定義する処理、
前記抽出した部分列のそれぞれについて前記生成した複数の区切パターンから、前記取得した当該区切パターンの区切確率係数と、当該区切確率係数について定義した信頼度と、当該区切パターンの部分列と対応する語間を含む部分列である隣接部分列の区切パターンのうち対応する語間について同じ区切り方を示す対応隣接区切パターンの区切確率係数と、に基づいて前記取得した単語列の区切り方を示す区切パターンを選択する処理、
を実行させることを特徴とするプログラム。
(Appendix 8)
On the computer,
Processing to obtain word strings to be analyzed,
A process of extracting a partial sequence composed of words included in the acquired word sequence;
For each word between the words included in the extracted subsequence, a plurality of delimiter patterns corresponding to the case where the acquired word sequence is delimited and the case where the acquired word sequence is not delimited between the words are generated Processing,
For each of the extracted subsequences, a delimitation probability coefficient that is a probability that the teacher word sequence is delimited by the delimiter corresponding to each of the generated delimiter patterns in each of the delimiter patterns in the teacher word sequence including the partial sequence. Processing to get,
Processing for defining the reliability of the acquired probability coefficient;
For each of the extracted subsequences, from the generated plurality of delimiter patterns, the obtained delimiter probability coefficient of the delimiter pattern, the reliability defined for the delimiter probability coefficient, and the word corresponding to the substring of the delimiter pattern A delimiter pattern indicating how to delimit the acquired word string based on a delimitation probability coefficient of a corresponding adjacent delimiter pattern indicating the same delimiter between corresponding words among delimiters of adjacent substrings that are substrings including Process to choose,
A program characterized by having executed.
1…メニュー表示装置、10…画像入力部、20…OCR、30…メニュー解析部、40…確率係数出力部、50…変換部、60…用語辞書記憶部、70…情報処理部、80…表示部、90…操作入力部、701…情報処理部、702…データ記憶部、703…プログラム記憶部、704…入出力部、705…通信部、706…内部バス、707…制御プログラム、310…文字列取得部、320…分かち書き部、330…nグラム列生成部、340…nグラム選択部、350…区切パターン生成部、360…ルート確率係数定義部、3610…、確率係数取得部、3620…信頼度定義部、3630…補正部、3640…ルート確率係数算出部、370…ルート選択部、380…単語列分割部、390…出力部、410…区切パターン取得部、420…判別部、430…(n−1)グラム生成部、440…確率係数取得部、450…確率係数算出部、460…確率係数出力部、470…記憶部、4710…確率係数記憶部、4720…設定記憶部、480…根拠情報出力部、I1…画像
DESCRIPTION OF
Claims (7)
前記取得部が取得した単語列に含まれる単語から構成される部分列を抽出する抽出部と、
前記抽出部が抽出した部分列に含まれる単語と単語との間である語間のそれぞれについて、その語間で前記取得部が取得した単語列が区切れる場合と区切れない場合とに対応する区切パターンを、複数生成するパターン生成部と、
前記抽出部が抽出した部分列のそれぞれについて、前記パターン生成部が生成した複数の区切パターンに対応する区切れ方で区切れる確からしさである区切確率係数を、前記部分列を含む教師単語列において各区切パターン毎に区切確率係数が記憶されている確率係数記憶部から読み出すことで取得する確率係数取得部と、
前記確率係数取得部が取得した確率係数の信頼度を定義する信頼度定義部と、
前記確率係数取得部により取得された部分列のそれぞれの区切パターンの区切確率係数を前記信頼度定義部が定義した信頼度に基づいて補正する補正部と、
前記補正部で補正される区切確率係数を用いて、前記確率係数取得部により取得された部分列のそれぞれの区切パターンの区切確率係数と、当該部分列の1つ前の部分列であって当該部分列と共通する区切パターンを有する部分列の区切確率係数の大きい方とを乗算して、当該部分列までのルート確率係数を算出するルート確率係数算出部と、
前記ルート確率係数算出部により前記抽出部が抽出した末尾の部分列までのルート確率係数が算出された後に、最も大きなルート確率係数が得られたルートを選択する選択部と、
前記選択部が選択したルートに対応する区切パターンの区切り方で、前記取得部が取得した単語列を分割する分割部と、
を備えることを特徴とする情報処理装置。 And obtained part preparative you get the word sequence to be analyzed,
An extraction unit for extracting a partial sequence consisting of words contained in the prior word sequence Quito resulting unit is acquired,
For each inter-word is between words and words included in the subsequence extracted by the extracting unit, corresponds to the case where not separate them and if word strings before Quito resulting unit is acquired between the word Kugireru A pattern generation unit for generating a plurality of delimiter patterns,
For each partial sequence extracted by the extraction unit , a delimitation probability coefficient that is a probability of being delimited by a delimitation method corresponding to a plurality of delimiter patterns generated by the pattern generation unit, in the teacher word sequence including the partial sequence A probability coefficient acquisition unit that is acquired by reading from a probability coefficient storage unit in which a division probability coefficient is stored for each division pattern ;
A reliability definition unit that defines the reliability of the probability coefficient acquired by the probability coefficient acquisition unit;
A correction unit that corrects the delimitation probability coefficient of each delimiter pattern of the partial sequence acquired by the probability coefficient acquisition unit based on the reliability defined by the reliability definition unit;
Using the delimitation probability coefficient corrected by the correction unit, the delimitation probability coefficient of each delimiter pattern of the partial sequence acquired by the probability coefficient acquisition unit, and the partial sequence immediately preceding the partial sequence, A route probability coefficient calculation unit that calculates a root probability coefficient to the partial sequence by multiplying the larger one of the partial probability coefficients of the partial sequence having a common partition pattern with the partial sequence;
A selection unit that selects a route from which the largest route probability coefficient is obtained after the route probability coefficient to the last partial sequence extracted by the extraction unit is calculated by the route probability coefficient calculation unit ;
By delimiting towards the division pattern corresponding to the root of the selector selects a dividing unit for dividing the pre-word sequence Quito resulting unit is acquired,
An information processing apparatus comprising:
ことを特徴とする請求項1に記載の情報処理装置。 Wherein the correction unit, the division probability coefficient after correction of reliability reliability definition unit defines a higher division pattern than predetermined levels, the selection of the selection unit than Subdivision Setsu確 rate coefficient of division patterns otherwise Correct the break probability factor to have a greater impact on
The information processing apparatus according to claim 1 .
前記補正部は、前記共通の信頼度をもつ各部分列の区切確率係数のうち前記信頼度が大きい集合の中で、区切確率係数が大きいものと、小さいものとの差を拡大するように補正する、
ことを特徴とする請求項1または2に記載の情報処理装置。 The reliability definition unit defines a common reliability for the partition pattern defined for each partial sequence extracted by the extraction unit,
The correction unit corrects the difference between the one having a large delimitation probability coefficient and the small one in the set having a high reliability among the delimitation probability coefficients of the partial sequences having the common reliability. To
The information processing apparatus according to claim 1 , wherein the information processing apparatus is an information processing apparatus.
前記信頼度定義部は、前記区切確率係数を取得するにあたって用いた部分列若しくは小部分列の単語長に基づいて、前記区切確率係数の信頼度を定める、
ことを特徴とする請求項1乃至3の何れか一項に記載の情報処理装置。 The probability coefficient acquisition unit determines whether or not the delimitation probability coefficient of the delimiter pattern can be acquired based on a teacher word string including a partial sequence corresponding to the delimiter pattern. Tokushi taken on the basis of the teacher word column that contains a small portion column to column,
The reliability defining unit determines the reliability of the delimitation probability coefficient based on the word length of the subsequence or small subsequence used in obtaining the delimitation probability coefficient.
The information processing apparatus according to any one of claims 1 to 3, characterized in that.
前記信頼度定義部は、前記確率係数取得部が取得した、前記区切パターンの区切確率係数の根拠となる教師単語列の数に基づいて前記区切確率係数の信頼度を定める、
ことを特徴とする請求項1乃至4の何れか一項に記載の情報処理装置。 The probability coefficient acquisition unit further acquires the number of teacher word strings that serve as a basis for the partition probability coefficient of the partition pattern,
The reliability definition unit determines the reliability of the delimitation probability coefficient based on the number of teacher word strings that is acquired by the probability coefficient acquisition unit and serves as a basis for the delimitation probability coefficient of the delimitation pattern.
The information processing apparatus according to any one of claims 1 to 4, characterized in that.
前記撮影部が撮影した画像から文字列を抽出する文字列抽出部と、
前記文字列抽出部が抽出した文字列から単語列を生成する単語列生成部と、
前記単語列生成部が生成した単語列に含まれる単語から構成される部分列を抽出する抽出部と、
前記抽出部が抽出した部分列に含まれる単語と単語との間である語間のそれぞれについて、その語間で前記単語列生成部が生成した単語列が区切れる場合と区切れない場合とに対応する区切パターンを、複数生成するパターン生成部と、
前記抽出部が抽出した部分列のそれぞれについて、前記パターン生成部が生成した複数の区切パターンに対応する区切れ方で区切れる確からしさである区切確率係数を、前記部分列を含む教師単語列において各区切パターン毎に区切確率係数が記憶されている確率係数記憶部から読み出すことで取得する確率係数取得部と、
前記確率係数取得部が取得した確率係数の信頼度を定義する信頼度定義部と、
前記確率係数取得部により取得された部分列のそれぞれの区切パターンの区切確率係数を前記信頼度定義部が定義した信頼度に基づいて補正する補正部と、
前記補正部で補正される区切確率係数を用いて、前記確率係数取得部により取得された部分列のそれぞれの区切パターンの区切確率係数と、当該部分列の1つ前の部分列であって当該部分列と共通する区切パターンを有する部分列の区切確率係数の大きい方とを乗算して、当該部分列までのルート確率係数を算出するルート確率係数算出部と、
前記ルート確率係数算出部により前記抽出部が抽出した末尾の部分列までのルート確率係数が算出された後に、最も大きなルート確率係数が得られたルートを選択する選択部と、
前記選択部が選択したルートに対応する区切パターンの区切り方で、前記単語列生成部が生成した単語列を分割する分割部と、
前記分割部が分割した単語列のそれぞれを、当該分割した単語列に含まれる単語又は単語列に対応する表示データに変換する変換部と、
前記変換部が変換した表示データを表示する表示部と、
を備えることを特徴とするデータ表示装置。 A shooting unit for shooting images of character strings;
A character string extraction unit that extracts a character string from an image captured by the imaging unit;
A word sequence generation unit which generates a word string from the character string the character string extraction unit and extracted,
And Extraction unit extracted subsequence consists words included in the word sequence, wherein the word sequence generating unit has generated,
For each inter-word is between words and words before Ki抽 out section is included in the extracted partial columns, if no separating them with a case where the word sequence, wherein the word sequence generating unit has generated between the word Kugireru A pattern generation unit that generates a plurality of delimiter patterns corresponding to
For each of the previous subsequences Ki抽 out portion is extracted, the division probability coefficients a probability that Kugireru in towards separating them corresponding to a plurality of division patterns to the pattern generating unit has generated a teacher word that contains the partial sequence A probability coefficient acquisition unit that is acquired by reading from a probability coefficient storage unit in which a partition probability coefficient is stored for each partition pattern in the column ;
A reliability definition unit that defines the reliability of the probability coefficient acquired by the probability coefficient acquisition unit;
A correction unit that corrects the delimitation probability coefficient of each delimiter pattern of the partial sequence acquired by the probability coefficient acquisition unit based on the reliability defined by the reliability definition unit;
Using the delimitation probability coefficient corrected by the correction unit, the delimitation probability coefficient of each delimiter pattern of the partial sequence acquired by the probability coefficient acquisition unit, and the partial sequence immediately preceding the partial sequence, A route probability coefficient calculation unit that calculates a root probability coefficient to the partial sequence by multiplying the larger one of the partial probability coefficients of the partial sequence having a common partition pattern with the partial sequence;
A selection unit that selects a route from which the largest route probability coefficient is obtained after the route probability coefficient to the last partial sequence extracted by the extraction unit is calculated by the route probability coefficient calculation unit ;
A dividing unit that divides the word string generated by the word string generation unit in a way of dividing a separation pattern corresponding to the route selected by the selection unit;
A conversion unit that converts each of the word strings divided by the dividing unit into display data corresponding to words or word strings included in the divided word strings;
A display unit for displaying the display data converted by the conversion unit;
A data display device comprising:
解析対象となる単語列を取得する取得処理、
前記取得した単語列に含まれる単語から構成される部分列を抽出する抽出処理、
前記抽出した部分列に含まれる単語と単語との間である語間のそれぞれについて、その語間で前記取得処理で取得した単語列が区切れる場合と区切れない場合とに対応する区切パターンを、複数生成するパターン生成処理、
前記抽出処理で抽出した部分列のそれぞれについて、前記パターン生成処理で生成した複数の区切パターンに対応する区切れ方で区切れる確からしさである区切確率係数を、前記部分列を含む教師単語列において各区切パターン毎に区切確率係数が記憶されている確率係数記憶部から読み出すことで取得する確率係数取得処理、
前記確率係数取得処理で取得した確率係数の信頼度を定義する信頼度定義処理、
前記確率係数取得処理により取得された部分列のそれぞれの区切パターンの区切確率係数を前記信頼度定義処理で定義した信頼度に基づいて補正する補正処理、
前記補正処理で補正される区切確率係数を用いて、前記確率係数取得処理により取得された部分列のそれぞれの区切パターンの区切確率係数と、当該部分列の1つ前の部分列であって当該部分列と共通する区切パターンを有する部分列の区切確率係数の大きい方とを乗算して、当該部分列までのルート確率係数を算出するルート確率係数算出処理、
前記ルート確率係数算出処理により前記抽出処理で抽出した末尾の部分列までのルート確率係数が算出された後に、最も大きなルート確率係数が得られたルートを選択する選択処理、
前記選択処理で選択したルートに対応する区切パターンの区切り方で、前記取得処理で取得した単語列を分割する分割処理、
を実行させることを特徴とするプログラム。 On the computer,
Acquisition process to acquire the word string to be analyzed,
An extraction process for extracting a partial sequence composed of words included in the acquired word sequence;
For each of the words between the words included in the extracted partial sequence, a delimiter pattern corresponding to a case where the word sequence acquired by the acquisition process is delimited between the words and a case where it is not delimited , Multiple pattern generation processing,
For each of the partial sequences extracted by the extraction process, a delimiter probability coefficient that is a probability of being delimited by a delimiter corresponding to a plurality of delimiter patterns generated by the pattern generation process is determined in the teacher word sequence including the partial sequence. Probability coefficient acquisition processing to be acquired by reading from a probability coefficient storage unit in which a partition probability coefficient is stored for each partition pattern,
A reliability definition process for defining the reliability of the probability coefficient acquired in the probability coefficient acquisition process;
A correction process for correcting the delimitation probability coefficient of each delimiter pattern of the partial sequence acquired by the probability coefficient acquisition process based on the reliability defined in the reliability definition process,
Using the delimitation probability coefficient corrected by the correction process, the delimitation probability coefficient of each delimiter pattern of the partial sequence acquired by the probability coefficient acquisition process, and the partial sequence immediately preceding the partial sequence, A route probability coefficient calculation process for calculating a root probability coefficient up to the partial sequence by multiplying the larger one of the partial probability coefficients of the partial sequence having a common partition pattern with the partial sequence,
A selection process for selecting a route with the largest route probability coefficient after the route probability coefficient to the last substring extracted in the extraction process is calculated by the route probability coefficient calculation process;
A division process for dividing the word string acquired in the acquisition process in a way of dividing a division pattern corresponding to the route selected in the selection process;
A program characterized by having executed.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012035796A JP5978645B2 (en) | 2012-02-22 | 2012-02-22 | Information processing apparatus, data display apparatus, and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012035796A JP5978645B2 (en) | 2012-02-22 | 2012-02-22 | Information processing apparatus, data display apparatus, and program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2013171479A JP2013171479A (en) | 2013-09-02 |
JP5978645B2 true JP5978645B2 (en) | 2016-08-24 |
Family
ID=49265358
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2012035796A Active JP5978645B2 (en) | 2012-02-22 | 2012-02-22 | Information processing apparatus, data display apparatus, and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5978645B2 (en) |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3938234B2 (en) * | 1997-12-04 | 2007-06-27 | 沖電気工業株式会社 | Natural language processing device |
JP5484113B2 (en) * | 2010-02-12 | 2014-05-07 | 日本電信電話株式会社 | Document image related information providing apparatus and document image related information acquisition system |
JP5834772B2 (en) * | 2011-10-27 | 2015-12-24 | カシオ計算機株式会社 | Information processing apparatus and program |
JP5870744B2 (en) * | 2012-02-20 | 2016-03-01 | カシオ計算機株式会社 | Information processing apparatus and program |
-
2012
- 2012-02-22 JP JP2012035796A patent/JP5978645B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
JP2013171479A (en) | 2013-09-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR101435265B1 (en) | Method for disambiguating multiple readings in language conversion | |
CN105068997B (en) | The construction method and device of parallel corpora | |
US7752032B2 (en) | Apparatus and method for translating Japanese into Chinese using a thesaurus and similarity measurements, and computer program therefor | |
JP5257071B2 (en) | Similarity calculation device and information retrieval device | |
JP2007004633A (en) | Language model generation device and language processing device using language model generated by the same | |
US20110078176A1 (en) | Image search apparatus and method | |
WO2017177809A1 (en) | Word segmentation method and system for language text | |
KR101544690B1 (en) | Word division device, word division method, and word division program | |
WO2007049792A1 (en) | Apparatus, method, and storage medium storing program for determining naturalness of array of words | |
JP4785655B2 (en) | Document processing apparatus and document processing method | |
US10410632B2 (en) | Input support apparatus and computer program product | |
JP5834772B2 (en) | Information processing apparatus and program | |
KR20140102589A (en) | Information processing device, information processing method and storage medium | |
JP5927955B2 (en) | Information processing apparatus and program | |
JP5097802B2 (en) | Japanese automatic recommendation system and method using romaji conversion | |
JP5697648B2 (en) | Word division device, data structure of word division dictionary, word division method, and program | |
US11494555B2 (en) | Identifying section headings in a document | |
JP4886244B2 (en) | Machine translation apparatus and machine translation program | |
JP5870744B2 (en) | Information processing apparatus and program | |
JP6056291B2 (en) | Information processing apparatus, data display apparatus, and program | |
JP5978645B2 (en) | Information processing apparatus, data display apparatus, and program | |
US20130110499A1 (en) | Information processing device, information processing method and information recording medium | |
JP5604276B2 (en) | Document image generation apparatus and document image generation method | |
JP6303508B2 (en) | Document analysis apparatus, document analysis system, document analysis method, and program | |
JP5032557B2 (en) | Pattern recognition apparatus and pattern recognition method |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20150209 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20151208 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20151215 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20160209 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20160628 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20160711 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5978645 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |