JP5870744B2 - Information processing apparatus and program - Google Patents

Information processing apparatus and program Download PDF

Info

Publication number
JP5870744B2
JP5870744B2 JP2012034573A JP2012034573A JP5870744B2 JP 5870744 B2 JP5870744 B2 JP 5870744B2 JP 2012034573 A JP2012034573 A JP 2012034573A JP 2012034573 A JP2012034573 A JP 2012034573A JP 5870744 B2 JP5870744 B2 JP 5870744B2
Authority
JP
Japan
Prior art keywords
unit
pattern
probability coefficient
word
probability
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2012034573A
Other languages
Japanese (ja)
Other versions
JP2013171413A (en
Inventor
山口 倫治
倫治 山口
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Casio Computer Co Ltd
Original Assignee
Casio Computer Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Casio Computer Co Ltd filed Critical Casio Computer Co Ltd
Priority to JP2012034573A priority Critical patent/JP5870744B2/en
Priority to US13/656,893 priority patent/US20130110499A1/en
Publication of JP2013171413A publication Critical patent/JP2013171413A/en
Application granted granted Critical
Publication of JP5870744B2 publication Critical patent/JP5870744B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Description

本発明は、情報処理装置及びプログラムに関する。 The present invention relates to an information processing instrumentation 置及 beauty program.

複数の単語を含む単語列を意味単位ごとに区切り、その区切った単位ごとに翻訳・意味解析等を実行して結果をユーザに提示する表示装置が知られている。このような表示装置に関連して、解析対象となる単語列がどの単語と単語との間(語間)で区切れるか推測する技術が提案されている。   There is known a display device that divides a word string including a plurality of words into semantic units, performs translation / semantic analysis for each divided unit, and presents the result to the user. In relation to such a display device, a technique has been proposed for estimating which word string to be analyzed is divided between words (between words).

例えば、特許文献1は予め解析対象となる単語列が属する言語の文法規則をプログラミングした構文解析器を用いて文書の区切れ方を推測する技術を提案している。
また、特許文献2は、分かち書きされていない文字列を単語毎に分割する技術を提案している。
For example, Patent Document 1 proposes a technique for inferring how to divide a document using a syntax analyzer in which a grammar rule of a language to which a word string to be analyzed belongs is programmed in advance.
Patent Document 2 proposes a technique for dividing a character string that is not divided into words.

特開平6−309310号公報JP-A-6-309310 特開平10−254874号公報JP-A-10-254874

特許文献1の技術では、原文がどの単語と単語との間で区切れるかを推測するために、原文が属する言語の文法規則をプログラミングした構文解析器を用いる。そのため、区切り方の推測精度が構文解析器の精度に依存してしまう。しかし、精度の高い構文解析器を制作することは困難であり、また精度の高い構文解析を実行するためには計算量が大きくなってしまうという問題があった。
特許文献2は、分かち書きされていない文字列を単語毎に分割する技術を開示しているが、文字列がどの単語と単語との間で区切れるか判別する方法を開示していない。
In the technique of Patent Document 1, in order to infer which words are separated from each other in the original text, a syntax analyzer that is programmed with the grammar rules of the language to which the original text belongs is used. For this reason, the estimation accuracy of the delimiter depends on the accuracy of the parser. However, it is difficult to produce a high-accuracy parser, and there is a problem that the amount of calculation becomes large in order to execute a high-precision parser.
Patent Document 2 discloses a technique for dividing a character string that is not divided into words, but does not disclose a method for determining which word is divided between words.

本発明は上記事情に鑑みてなされたもので、解析対象となる単語列を、構文解析器を用いず区切ることができる情報処理装置及びプログラムを提供することを目的とする。 The present invention has been made in view of the above circumstances, the word string to be analyzed, and an object thereof is to provide an information processing instrumentation 置及 beauty program that can be separated without using a parser.

上記目的を達成するため、本願発明に係る情報処理装置は、
複数の単語列を集めた教師データを記憶している教師データ記憶部と、
解析対象となる単語列を取得する取得部と、
前記取得部が取得した単語列の先頭から末尾まで順番に、連続する複数の単語からなる部分列を抽出する抽出部と、
前記抽出部が抽出した部分列に含まれる単語と単語との間である語間のそれぞれについて、その語間で前記取得部が取得した単語列が区切れる場合と区切れない場合とに対応する区切パターンを、複数生成するパターン生成部と、
前記抽出部が抽出した部分列のそれぞれについて、前記パターン生成部が生成した複数の区切パターンに対応する区切れ方で区切れる確からしさである区切確率係数を、前記教師データ記憶部に記憶されている前記抽出した部分列を含む単語列の数と前記抽出した部分列であって前記区切パターンに対応する区切れ方で区切られている単語列の数との比に基づいて、取得する確率係数取得部と、
前記確率係数取得部により取得された部分列のそれぞれの区切パターンの区切確率係数と、当該部分列の1つ前の部分列であって当該部分列と共通する区切パターンを有する部分列の区切確率係数の大きい方とを乗算して、当該部分列までのルート確率係数を算出するルート確率係数算出部と、
前記ルート確率係数算出部により前記抽出部が抽出した末尾の部分列までのルート確率係数が算出された後に、最も大きなルート確率係数が得られたルートを選択する選択部と、
前記選択部が選択したルートに対応する区切パターンの区切り方で、前記取得部が取得した単語列を分割する分割部と、
を備えることを特徴とする。
In order to achieve the above object, an information processing apparatus according to the present invention provides:
A teacher data storage unit storing teacher data obtained by collecting a plurality of word strings;
An acquisition unit for acquiring a word string to be analyzed;
An extraction unit for extracting a partial sequence consisting of a plurality of consecutive words in order from the beginning to the end of the word sequence acquired by the acquisition unit;
For each word between words included in the partial sequence extracted by the extraction unit, corresponding to the case where the word sequence acquired by the acquisition unit between the words is separated from the case A pattern generator for generating a plurality of delimiter patterns;
For each partial sequence extracted by the extraction unit , a delimitation probability coefficient that is a probability of being delimited by a delimiter corresponding to a plurality of delimiter patterns generated by the pattern generation unit is stored in the teacher data storage unit. A probability coefficient to be acquired based on a ratio between the number of word strings including the extracted partial sequence and the number of word sequences that are the extracted partial sequences and separated by the division method corresponding to the division pattern An acquisition unit;
The delimitation probability coefficient of each delimiter pattern of the subsequence acquired by the probability coefficient acquisition unit, and the delimitation probability of the subsequence that is the subsequence immediately before the subsequence and has a delimiter pattern common to the subsequence A route probability coefficient calculation unit that calculates a route probability coefficient up to the subsequence by multiplying the larger one of the coefficients;
A selection unit that selects a route from which the largest route probability coefficient is obtained after the route probability coefficient to the last partial sequence extracted by the extraction unit is calculated by the route probability coefficient calculation unit ;
A dividing unit that divides the word string acquired by the acquisition unit in a way of dividing a separation pattern corresponding to the route selected by the selection unit;
It is characterized by providing.

本発明によれば、解析対象となる単語列を、構文解析器を用いず区切ることができる情報処理装置及びプログラムを提供することができる。 According to the present invention, it is possible to provide a word string to be analyzed, the information processing instrumentation 置及 beauty program that can be separated without using a parser.

本発明の実施形態1に係るメニュー表示装置の構成を示すブロック図であり、(a)は機能構成を、(b)は物理構成を、それぞれ示す。It is a block diagram which shows the structure of the menu display apparatus which concerns on Embodiment 1 of this invention, (a) shows a function structure, (b) shows a physical structure, respectively. 実施形態1に係るメニュー表示装置が実行する処理を説明するための図であり、(a)は撮影した画像を、(b)は単語列を分割した結果を、(c)は表示データを、それぞれ示す。It is a figure for demonstrating the process which the menu display apparatus which concerns on Embodiment 1 performs, (a) is the image | photographed image, (b) is the result of dividing | segmenting a word string, (c) is display data, Each is shown. 実施形態1に係るメニュー表示装置が実行する処理を説明するための図であり、(a)は文字列とタグ付き文字列との関係を、(b)は単語列と区切フラグとnグラム(トライグラム)と区切パターンとの関係を、それぞれ示す。It is a figure for demonstrating the process which the menu display apparatus which concerns on Embodiment 1 performs, (a) is the relationship between a character string and a tagged character string, (b) is a word string, a delimiter flag, and n-gram ( The relationship between the trigram) and the division pattern is shown respectively. 実施形態1に係るメニュー解析部の機能構成を示すブロック図である。3 is a block diagram illustrating a functional configuration of a menu analysis unit according to the first embodiment. FIG. 実施形態1に係るメニュー解析部が実行する処理を説明するための図である。It is a figure for demonstrating the process which the menu analysis part which concerns on Embodiment 1 performs. 実施形態1に係る確率係数出力部の構成を示すブロック図である。It is a block diagram which shows the structure of the probability coefficient output part which concerns on Embodiment 1. FIG. 実施形態1に係るnグラムリストの例を示す図であり、(a)はトライグラムリストを、(b)はバイグラムリストを、(c)はモノグラムリストを、それぞれ示す。It is a figure which shows the example of the n-gram list which concerns on Embodiment 1, (a) shows a trigram list, (b) shows a bigram list, (c) shows a monogram list, respectively. 実施形態1に係る確率係数算出処理の概要を示す図であり、(a)はバイグラムの区切確率係数からトライグラムの区切確率係数を算出する処理の例を、(b)はモノグラムの区切確率係数からトライグラムの区切確率係数を算出する処理の例を、それぞれ示す。It is a figure which shows the outline | summary of the probability coefficient calculation process which concerns on Embodiment 1, (a) is an example of the process which calculates the division | segmentation probability coefficient of a trigram from the division | segmentation probability coefficient of a bigram, (b) is a division | segmentation probability coefficient of a monogram. An example of processing for calculating a trigram segmentation probability coefficient from each is shown. 実施形態1に係るメニュー表示装置が実行するメニュー表示処理を示すフローチャートである。4 is a flowchart illustrating menu display processing executed by the menu display device according to the first embodiment. 実施形態1に係るメニュー表示装置が実行するメニュー分割処理を示すフローチャートである。It is a flowchart which shows the menu division | segmentation process which the menu display apparatus which concerns on Embodiment 1 performs. 実施形態1に係るメニュー表示装置が実行する区切確率係数取得処理を示すフローチャートである。It is a flowchart which shows the division | segmentation probability coefficient acquisition process which the menu display apparatus which concerns on Embodiment 1 performs. 実施形態1に係るメニュー表示装置が実行する確率係数算出処理を示すフローチャートである。It is a flowchart which shows the probability coefficient calculation process which the menu display apparatus which concerns on Embodiment 1 performs. 本発明のその他の実施形態に係るnグラム(バイグラム)パターン確率係数リストを示す図である。It is a figure which shows the n-gram (bigram) pattern probability coefficient list which concerns on other embodiment of this invention.

以下、本発明を実施するための形態に係るメニュー表示装置を、図を参照しながら説明する。なお、図中同一又は相当する部分には同一符号を付す。   Hereinafter, a menu display device according to an embodiment for carrying out the present invention will be described with reference to the drawings. In the drawings, the same or corresponding parts are denoted by the same reference numerals.

(実施形態1)
実施形態1に係るメニュー表示装置1は、i)解析対象となる特定のカテゴリに属する文字列(メニュー、献立等)を記載した紙等を撮影する撮影機能、ii)撮影した画像から解析対象となる文字列を認識して抽出する機能、iii)抽出した文字列を解析して単語列に変換する機能、iv)文字列の所定部分(単語間)でメニューが区切れる確率を示す係数を出力する機能、v)区切れる確率係数に基づいて単語列を区切る機能、vi)区切った単語列をそれぞれ表示データに変換する機能、vii)表示データを表示する機能、等を備える。
(Embodiment 1)
The menu display device 1 according to the first embodiment includes: i) a shooting function for shooting paper or the like describing a character string (menu, menu, etc.) belonging to a specific category to be analyzed; and ii) an analysis target from the shot image. A function for recognizing and extracting a character string, iii) a function for analyzing the extracted character string and converting it into a word string, and iv) outputting a coefficient indicating a probability that the menu is divided at a predetermined portion (between words) of the character string V) a function for dividing a word string based on a divided probability coefficient, vi) a function for converting each divided word string into display data, vii) a function for displaying display data, and the like.

メニュー表示装置1は図1(a)に示すように画像入力部10と、OCR(Optical Character Reader)20とメニュー解析部30と確率係数出力部40と変換部50と用語辞書記憶部60とを含む情報処理部70と、表示部80と、操作入力部90と、を備える。   As shown in FIG. 1A, the menu display device 1 includes an image input unit 10, an OCR (Optical Character Reader) 20, a menu analysis unit 30, a probability coefficient output unit 40, a conversion unit 50, and a term dictionary storage unit 60. The information processing unit 70 includes a display unit 80, and an operation input unit 90.

画像入力部10は、カメラと画像処理部とから構成され、このような物理構成によりメニューを撮影した画像を取得する。画像入力部10は、取得した画像をOCR20に伝達する。   The image input unit 10 includes a camera and an image processing unit, and acquires an image obtained by shooting a menu with such a physical configuration. The image input unit 10 transmits the acquired image to the OCR 20.

情報処理部70は、物理的には、図1(b)に示すように情報処理部701と、データ記憶部702と、プログラム記憶部703と、入出力部704と、通信部705と、内部バス706と、から構成される。   As shown in FIG. 1B, the information processing unit 70 physically includes an information processing unit 701, a data storage unit 702, a program storage unit 703, an input / output unit 704, a communication unit 705, an internal A bus 706.

情報処理部701は、CPU(Central Processing Unit)、DSP(Digital Signal Processing)、等から構成され、プログラム記憶部703に記憶されている制御プログラム707に従って、後述するメニュー表示装置1に係る処理を実行する。   The information processing unit 701 includes a CPU (Central Processing Unit), a DSP (Digital Signal Processing), and the like, and executes processing related to the menu display device 1 described later according to a control program 707 stored in the program storage unit 703. To do.

データ記憶部702は、RAM(Random−Access Memory)等から構成され、情報処理部701の作業領域として用いられる。   The data storage unit 702 includes a RAM (Random-Access Memory) and the like, and is used as a work area for the information processing unit 701.

プログラム記憶部703は、フラッシュメモリ、ハードディスク、等の不揮発性メモリから構成され、情報処理部701の動作を制御する制御プログラム707と、下記に示す処理を実行するためのデータを記憶する。   The program storage unit 703 is configured by a non-volatile memory such as a flash memory or a hard disk, and stores a control program 707 for controlling the operation of the information processing unit 701 and data for executing the processing described below.

通信部705は、LAN(Local Area Network)デバイス、モデム等から構成され、LAN回線や通信回線を介して接続された外部機器に情報処理部701の処理結果を送信する。また、外部機器から情報を受信して、情報処理部701に伝達する。
なお、情報処理部701と、データ記憶部702と、プログラム記憶部703と、入出力部704と、通信部705と、は内部バス706によってそれぞれ接続され、情報の送信が可能である。
The communication unit 705 includes a LAN (Local Area Network) device, a modem, and the like, and transmits the processing result of the information processing unit 701 to an external device connected via a LAN line or a communication line. In addition, information is received from an external device and transmitted to the information processing unit 701.
Note that the information processing unit 701, the data storage unit 702, the program storage unit 703, the input / output unit 704, and the communication unit 705 are connected by an internal bus 706, respectively, and can transmit information.

入出力部704は、USB(Universal Serial Bus)やシリアルポートによって情報処理部70に接続された、画像入力部10、表示部80、操作入力部90、外部装置等との情報の入出力を制御するI/O部である。   The input / output unit 704 controls input / output of information to / from the image input unit 10, the display unit 80, the operation input unit 90, an external device, and the like connected to the information processing unit 70 via a USB (Universal Serial Bus) or a serial port. I / O unit to be

情報処理部70は、上記物理構成によりOCR20と、メニュー解析部30と、確率係数出力部40と、変換部50と、用語辞書記憶部60と、として機能する。   The information processing unit 70 functions as the OCR 20, the menu analysis unit 30, the probability coefficient output unit 40, the conversion unit 50, and the term dictionary storage unit 60 with the above physical configuration.

OCR20は、画像入力部10から伝達された画像の文字を認識し、メニューに記された文字列(料理名等)を取得する。OCR20は、取得した文字列をメニュー解析部30に伝達する。   The OCR 20 recognizes the characters of the image transmitted from the image input unit 10 and acquires a character string (such as a dish name) written on the menu. The OCR 20 transmits the acquired character string to the menu analysis unit 30.

メニュー解析部30は、OCR20から伝達された文字列を単語に分割して単語列Wに変換する。
メニュー解析部30は、単語列Wを構成する単語と単語との間である語間(注目語間)に対して、語間を構成する単語を少なくとも一つ含む部分単語列(nグラム)を抽出する。そして、そのnグラムと、そのnグラムの語間で単語列Wが区切れる場合と区切れない場合に対応する区切パターンを指定する情報と、を確率係数出力部40に伝達する。nグラムと区切パターンと区切確率係数については後述する。
メニュー解析部30は、確率係数出力部40が出力する、nグラムがその区切パターンで区切れる確からしさを示す係数(区切確率係数)を受け取る。メニュー解析部30は、確率係数出力部40から受け取った区切確率係数を用いて、単語列Wを分割して部分列を抽出し、部分列(分割した単語列W)を変換部50に出力する。メニュー解析部30が実行する具体的な処理については後述する。
The menu analysis unit 30 divides the character string transmitted from the OCR 20 into words and converts them into word strings W.
The menu analysis unit 30 generates a partial word string (n-gram) that includes at least one word that constitutes an interword space, with respect to an interword (between words of interest) between words that constitute the word string W. Extract. Then, the n-gram and information specifying a delimiter pattern corresponding to the case where the word string W is delimited or not delimited between words of the n-gram are transmitted to the probability coefficient output unit 40. The n-gram, the division pattern, and the division probability coefficient will be described later.
The menu analysis unit 30 receives a coefficient (partition probability coefficient) that is output from the probability coefficient output unit 40 and indicates the probability that the n-gram is partitioned by the partition pattern. The menu analysis unit 30 uses the segmentation probability coefficient received from the probability coefficient output unit 40 to divide the word string W, extract a partial string, and outputs the partial string (divided word string W) to the conversion unit 50. . Specific processing executed by the menu analysis unit 30 will be described later.

確率係数出力部40は、メニュー解析部30からn個の単語(nグラム)と、そのnグラムで区切確率係数が必要な区切パターンを示す情報(区切フラグ)と、を伝達される。確率係数出力部40は、教師データを記憶している。確率係数出力部40は、メニュー解析部30からnグラムと区切パターンを示す情報を伝達されると、教師パターンを参照し、区切確率係数を取得して、メニュー解析部30に伝達する。
確率係数出力部40の機能構成と実行する具体的な処理については後述する。
The probability coefficient output unit 40 receives n words (n-gram) from the menu analysis unit 30 and information (separation flag) indicating a delimiter pattern that requires a delimitation probability coefficient in the n-gram. The probability coefficient output unit 40 stores teacher data. When the information indicating the n-gram and the division pattern is transmitted from the menu analysis unit 30, the probability coefficient output unit 40 refers to the teacher pattern, acquires the division probability coefficient, and transmits it to the menu analysis unit 30.
The functional configuration of the probability coefficient output unit 40 and the specific processing to be executed will be described later.

変換部50は、メニュー解析部30から伝達された分割された単語列Wを、部分列ごとに用語辞書記憶部60を参照して表示用データに変換する。
変換部50は、部分列のそれぞれに含まれる単語を、用語辞書記憶部60に伝達し、用語辞書記憶部60からその単語の解説データを取得する。変換部50は、部分列ごとに、原文であるメニューの単語と、その単語の解説データを並べて、表示データを生成する。
変換部50は、生成した表示データを表示部80に伝達する。
The conversion unit 50 converts the divided word string W transmitted from the menu analysis unit 30 into display data with reference to the term dictionary storage unit 60 for each partial string.
The conversion unit 50 transmits words included in each of the partial strings to the term dictionary storage unit 60 and acquires comment data of the words from the term dictionary storage unit 60. The conversion unit 50 generates display data by arranging the words of the menu that is the original sentence and the explanation data of the words for each partial sequence.
The conversion unit 50 transmits the generated display data to the display unit 80.

用語辞書記憶部60は、教師データに含まれる単語又は単語列と、その単語の解説のためのデータと、を対応付けて登録した用語辞書を記憶する。
用語辞書記憶部60は、変換部50から単語又は単語列を送信されると、その単語又は単語列が登録されていた場合、用語辞書でその単語又は単語列と対応付けて記録されている解説データを変換部50に伝達する。また、その単語又は単語列を登録していなかった場合には、その旨を示すemptyデータを送信する。
The term dictionary storage unit 60 stores a term dictionary in which words or word strings included in the teacher data and data for explaining the words are registered in association with each other.
When the word or the word string is transmitted from the conversion unit 50, the term dictionary storage unit 60 records the word or the word string in association with the word or the word string in the term dictionary. Data is transmitted to the conversion unit 50. If the word or word string has not been registered, empty data indicating that fact is transmitted.

表示部80は、液晶ディスプレイ等から構成され、変換部50から伝達された情報を表示する。   The display unit 80 is composed of a liquid crystal display or the like, and displays information transmitted from the conversion unit 50.

操作入力部90は、タッチパネル、キーボード、ボタン、ポインティングデバイス等の、ユーザの操作を受付ける操作受付装置と、操作受付装置が受け付けた操作の情報を情報処理部70に伝達する伝達部と、から構成される。操作入力部90はこのような物理構成によりユーザの操作を受け付けて、その情報を情報処理部70に伝達する。   The operation input unit 90 includes an operation accepting device that accepts a user operation, such as a touch panel, a keyboard, a button, and a pointing device, and a transmission unit that transmits information on an operation accepted by the operation accepting device to the information processing unit 70. Is done. The operation input unit 90 receives a user operation with such a physical configuration and transmits the information to the information processing unit 70.

ここで、メニュー表示装置1がメニューを撮影した画像と、分割された文字列と、表示用データと、の関係を図2を参照して説明する。
メニュー表示装置1は、ユーザが画像入力部10を用いてレストランのメニュー等を撮影すると、図2(a)に示すような画像I1を取得する。
そして、画像I1からOCR20が文字列を抽出し、メニュー解析部30が単語単位で分割して、図2(b)に示すように分割された単語列(部分列)として変換部50に伝達する。そして、変換部50が図2(c)に示すような部分列ごとに解説文をつけた表示データに変換して表示する。
Here, a relationship between an image obtained by photographing the menu by the menu display device 1, a divided character string, and display data will be described with reference to FIG.
When the user uses the image input unit 10 to photograph a restaurant menu or the like, the menu display device 1 acquires an image I1 as shown in FIG.
Then, the OCR 20 extracts a character string from the image I1, the menu analysis unit 30 divides the word unit, and transmits it to the conversion unit 50 as a divided word string (partial string) as shown in FIG. . Then, the conversion unit 50 converts and displays the display data with the explanatory text for each partial sequence as shown in FIG.

ここで、本実施形態に係る解析対象となる文字列(メニュー)と、教師データであるタグ付文字列と、nグラムと、区切フラグと、区切パターンと、について、図3を参照して説明する。
本実施形態で解析対象となる文字列は、図3(a)の上に示されるようなメニューを示す文字列である。図3に示すメニュー「豚バラ肉の赤ワイン煮温野菜添え」にタグを付し、単語毎・固まり毎に分割したデータがタグ付文字列(教師データ、図3(a)下)である。図3(a)の例では、タグ付文字列は「<m><c><s><w>豚</w>バラ肉</w><w>の</w></s><s><w>赤ワイン</w><w>煮</w></s><s><w></c>温野菜</w><w>添え</w></s></m>」である。
Here, a character string (menu) to be analyzed according to the present embodiment, a tagged character string as teacher data, an n-gram, a delimiter flag, and a delimiter pattern will be described with reference to FIG. To do.
The character string to be analyzed in the present embodiment is a character string indicating a menu as shown in the upper part of FIG. The tag “Character data, lower part of FIG. 3 (a)” is a data tag attached to the menu “pork belly with red wine boiled with warm vegetables” and divided for each word and chunk. In the example of Fig. 3 (a), the tagged string is "<m><c><s><w> pig </ w> rose </ w><w></w></s><s><w> Red wine </ w><w> boiled </ w></s><s><w></c> warm vegetables </ w><w> garnished </ w></ s ></m> ”.

このタグ付文字列では、メニューが単語を示すタグ<w></w>によって、「豚」、「バラ肉」、…、「添え」、の7つの単語に分割されている。さらに、材料名、料理方法、等の単位に分割するタグ<s></s>により、「豚バラ肉の」、「赤ワイン煮」、「温野菜添え」、という三つに分割されている。また、材料名と料理方法とその他の修飾語(例えば「プロバンス風」、「特選」、等)を含む一つの料理の単位に分割するタグ<c><c/>により、「豚バラ肉の赤ワイン煮」と「温野菜添え」との二つに分割されている。タグ<m></m>は文字列を一つのメニュー(献立)ごとに区切るタグである。ここで、タグ付文字列は文字列をタグ<w>、<s>、<c>、<m>で区切っているが、区切り方を定義する形式はこれに限られない。例えば、所定のカテゴリに含まれる文字列を、単語単位に区切るユニークなマーク(半角スペースでも可)と、さらに単語以外の少なくとも一つの区切り方で区切るユニークなマークと、を含む任意の文字列によって区切り方を定めても良い。なお、タグ付文字列は、予め特定の言語(ここでは日本語)の特定のカテゴリ(ここでは献立や料理名)に属する文字列を収集して、人手でタグ付けされたデータである。なお、タグ付文字列をタグ付けする方法は人手に限らず、構文解析器等の既知の任意のタグ付け方法であって良い。   In this tagged character string, the menu is divided into seven words “pork”, “rose meat”,..., “Attached” by tags <w> </ w> indicating words. Furthermore, according to tags <s> </ s> that are divided into units such as ingredient name, cooking method, etc., it is divided into three parts: “pork belly of meat”, “boiled red wine”, “with warm vegetables” . In addition, the tag <c> <c /> that divides into one cooking unit that includes the ingredient name, cooking method, and other modifiers (for example, “Provence style”, “Specialties”, etc.) It is divided into “red wine boiled” and “warm vegetables”. Tags <m> </ m> are tags that separate character strings into menus (menus). Here, in the tagged character string, the character string is delimited by tags <w>, <s>, <c>, and <m>, but the format for defining the delimiter is not limited to this. For example, a character string included in a predetermined category is determined by an arbitrary character string including a unique mark (single-byte space is allowed) that divides the character string into words, and a unique mark that is further separated by at least one method other than words. You may decide how to delimit. The tagged character string is data that is manually tagged with character strings that belong to a specific category (here, menu or dish name) of a specific language (here, Japanese). The method for tagging the tagged character string is not limited to manual operation, and any known tagging method such as a syntax analyzer may be used.

タグ付文字列と、nグラムと、区切フラグと、nグラムと、区切りパターンと、の関係を図3(b)に示す。タグ付文字列の単語列から、最初の単語からn個目の単語、2つの目の単語からn+1個目の単語、…のようにn個の単語を含む単語列の集合を抽出したものがnグラム列である。nグラム列を構成するそれぞれのn個の単語を含む単語列をnグラムと呼ぶ。さらに、n=3のnグラムをトライグラム、n=2のnグラムをバイグラム、n=1のnグラムをモノグラム、と呼ぶ。   FIG. 3B shows the relationship among the tagged character string, n-gram, delimiter flag, n-gram, and delimiter pattern. A word string of a tagged character string is obtained by extracting a set of word strings including n words such as the nth word from the first word, the n + 1th word from the second word,. n-gram sequence. A word string including n words constituting the n-gram string is called an n-gram. Further, n-grams with n = 3 are called trigrams, n-grams with n = 2 are called bigrams, and n-grams with n = 1 are called monograms.

「豚バラ肉の赤ワイン煮温野菜添え」から、トライグラム「豚バラ肉の」、「バラ肉の赤ワイン」、…、「煮温野菜添え」、から構成されるトライグラム列を得ることが出来る(図3(b))。メニューの単語列は図3(b)の上部に示すように、タグ構造によってツリー状に区切られる。そして、システムの設計上定められたツリーの所定の高さ(タグ付文字列の所定のタグに対応)で、単語と単語との間のどこで区切れるか、その区切り方を定めることが出来る。   You can obtain a trigram sequence consisting of trigram "pork rose meat", "red rose wine", ..., "with stewed vegetables" from "pig rose meat with red wine boiled vegetables" (FIG. 3B). As shown in the upper part of FIG. 3B, the menu word string is divided into a tree structure by the tag structure. Then, it is possible to determine where a word is divided between words at a predetermined height (corresponding to a predetermined tag of a tagged character string) determined by the system design.

図3(b)上のツリーの例では、タグ<m>又は</m>がある部位、タグ<s>及び</s>がある部位、タグ<c>及び</c>がある部位、のそれぞれ(区切ライン)でメニューが区切れている。単語列の語間のそれぞれで、区切れている場合に1、区切れて居ない場合を0で示した情報を区切フラグと呼ぶ。
なお、どのタグがある部分で区切れていると判断するかの判断基準は、自由に設定可能である。例えば、<s></s>タグがある部分のみで区切れていると判断して区切フラグを配置する設定等の任意の設定が可能である。
In the example of the tree in FIG. 3 (b), the part with the tag <m> or </ m>, the part with the tags <s> and </ s>, the part with the tags <c> and </ c> The menu is separated by each (separation line). Information between each word in the word string is referred to as a delimiter flag.
Note that the criteria for determining which tag is delimited by a certain part can be freely set. For example, it is possible to make arbitrary settings such as a setting for determining that the <s></s> tag is separated only by a portion and arranging a separation flag.

nグラムについて、そのnグラムの語間のそれぞれで単語列が区切れているか否かを、単語と区切フラグを並べて定義したパターンを区切パターンという。
例えば、トライグラムを構成する3つの単語(単語A、単語B、単語C)について、単語Aの前、単語Cの後ろを含むいずれの語間でも教師データが区切れて居ない場合に対応する区切パターンは「0A0B0C0」、全ての語間で区切れている場合に対応する区切パターンは「1A1B1C1」、である。
For n-grams, a pattern in which words and delimiter flags are defined side by side is referred to as a delimiter pattern.
For example, for the three words (word A, word B, word C) constituting the trigram, this corresponds to the case where the teacher data is not divided between any words including the word A before and the word C. The delimiter pattern is “0A0B0C0”, and the delimiter pattern corresponding to the case where all words are delimited is “1A1B1C1”.

あるnグラムで構成されている教師データの数(例えばM個)と、そのnグラムの区切りパターンで区切れている教師データの数(例えばm個)と、から算出される係数m/Mを、教師データにおいてそのnグラムに該当する部分がその区切りパターンで区切れている確からしさを示す係数(区切確率係数)として定義できる。教師データとなるタグ付文字列を十分な数だけ、偏り無く用意すれば(Mが十分大きければ)、区切確率係数はその言語でそのnグラムを含むメニュー全体でそのnグラムに対応する部位がその区切パターンに対応する区切方で区切れている確からしさを示す係数とみなすことができる。   A coefficient m / M calculated from the number of teacher data composed of an n-gram (for example, M) and the number of teacher data (for example, m) partitioned by the partition pattern of the n-gram The coefficient corresponding to the n-gram in the teacher data can be defined as a coefficient (separation probability coefficient) indicating the probability of being partitioned by the partition pattern. If a sufficient number of tagged character strings serving as teacher data are prepared without bias (if M is sufficiently large), the delimitation probability coefficient is the part corresponding to the n-gram in the entire menu including the n-gram in the language. It can be regarded as a coefficient indicating the probability of being partitioned by the partitioning method corresponding to the partition pattern.

次に、メニュー解析部30の機能構成について、図4を参照して説明する。メニュー解析部30は、図4に示すように、文字列取得部310、分かち書き部320、nグラム列生成部330、nグラム選択部340、区切パターン生成部350、確率係数取得部360、ルート確率係数算出部370、ルート選択部380、単語列分割部390、出力部311、から構成される。   Next, the functional configuration of the menu analysis unit 30 will be described with reference to FIG. As shown in FIG. 4, the menu analysis unit 30 includes a character string acquisition unit 310, a segmentation unit 320, an n-gram sequence generation unit 330, an n-gram selection unit 340, a delimiter pattern generation unit 350, a probability coefficient acquisition unit 360, a route probability A coefficient calculation unit 370, a route selection unit 380, a word string division unit 390, and an output unit 311 are included.

文字列取得部310は、OCR20が抽出した文字列を受け取り、分かち書き部320に伝達する。   The character string acquisition unit 310 receives the character string extracted by the OCR 20 and transmits it to the segmentation unit 320.

分かち書き部320は、文字列取得部310が取得した文字列を単語単位に分割する分かち書き処理を実行する。分かち書き部320は文字列から単語を抽出する任意の既知の方法を用いて上記分かち書き処理を実行してよいが、ここでは特許文献2が例示する方法を用いることとする。
なお、分かち書き部320は、解析対象となるメニューが英語やフランス語等の単語毎にスペースで区切られる言語であった場合は、スペースを認識して上記分かち書き処理を実行する。
分かち書き部320は、分かち書き処理によりメニューの文字列を単語列Wに変換してnグラム列生成部330へ伝達する。
The segmentation unit 320 executes segmentation processing for dividing the character string acquired by the character string acquisition unit 310 into words. The segmentation unit 320 may execute the segmentation process using any known method of extracting a word from a character string, but here, the method exemplified in Patent Document 2 is used.
If the menu to be analyzed is a language that is separated by spaces such as English or French, the segmentation unit 320 recognizes the space and executes the segmentation process.
The segmentation unit 320 converts the character string of the menu into a word string W by the segmentation process and transmits it to the n-gram sequence generation unit 330.

nグラム列生成部330は、分かち書き部320からメニューの単語列Wを伝達されると、単語列Wからnグラムの集合であるnグラム列を抽出する。nグラム列生成部330は、生成したnグラム列をnグラム選択部340に伝達する。nグラム列に含まれる各nグラムは、単語列Wの部分列である。   When the word string W of the menu is transmitted from the segmentation unit 320, the n-gram string generation unit 330 extracts an n-gram string that is a set of n-grams from the word string W. The n-gram sequence generation unit 330 transmits the generated n-gram sequence to the n-gram selection unit 340. Each n-gram included in the n-gram sequence is a partial sequence of the word sequence W.

nグラム選択部340は、生成したnグラム列のnグラムを先頭(又は最後尾)から順次最後尾(又は先頭)に向かって注目nグラムとして選択し、選択した注目nグラムを区切パターン生成部350に伝達する。   The n-gram selection unit 340 selects n-grams of the generated n-gram sequence as attention n-grams from the head (or tail) sequentially to the tail (or head), and selects the selected attention n-gram as a delimiter pattern generation unit 350.

区切パターン生成部350は、注目nグラムを伝達されると、注目nグラムについて定義できる区切パターン(通常2^(n+1)個)を生成する。区切パターン生成部350は、生成した区切パターンを確率係数取得部360に伝達する。なお、nグラムから生成される区切パターンをそのnグラムの対応区切パターンと呼ぶ。   When the notice n-gram is transmitted, the delimiter pattern generation unit 350 generates delimiter patterns (usually 2 ^ (n + 1)) that can be defined for the target n-gram. The delimiter pattern generation unit 350 transmits the generated delimiter pattern to the probability coefficient acquisition unit 360. A partition pattern generated from an n-gram is called a corresponding partition pattern of the n-gram.

確率係数取得部360は、伝達された対応区切パターンを、確率係数出力部40に伝達して区切パターンの区切確率係数を受け取る。確率係数取得部360は、区切パターンと取得した区切確率係数とを対応付けてルート確率係数算出部370に伝達する。   The probability coefficient acquisition unit 360 transmits the transmitted corresponding partition pattern to the probability coefficient output unit 40 and receives the partition probability coefficient of the partition pattern. The probability coefficient acquisition unit 360 associates the delimiter pattern with the acquired delimitation probability coefficient and transmits the associated delimitation probability coefficient to the route probability coefficient calculation unit 370.

ルート確率係数算出部370は、確率係数取得部360から伝達された区切パターンとその区切確率係数から、各区切パターンのルート確率係数を算出する。   The route probability coefficient calculation unit 370 calculates a route probability coefficient of each partition pattern from the partition pattern transmitted from the probability coefficient acquisition unit 360 and the partition probability coefficient.

ここで、ルート確率係数算出部370が算出するルート確率係数について、図5を参照して説明する。
単語列Wから抽出されたnグラムを、先頭からnグラム1、nグラム2、・・・と表記する。以下、n=2であるとする。図5の例では、nグラム1はバイグラム「豚−バラ」、nグラム2はバイグラム「バラ−肉」、である。nグラム1とnグラム2は、互いに隣接するnグラム(隣接nグラム、隣接部分列)と考えることが出来る。
Here, the route probability coefficient calculated by the route probability coefficient calculation unit 370 will be described with reference to FIG.
The n-gram extracted from the word string W is expressed as n-gram 1, n-gram 2,. Hereinafter, it is assumed that n = 2. In the example of FIG. 5, n-gram 1 is a bigram “pig-rose” and n-gram 2 is a bigram “rose-meat”. The n-gram 1 and the n-gram 2 can be considered as adjacent n-grams (adjacent n-gram, adjacent subsequence).

nグラム1の対応区切パターンとして8つの区切パターンが定義できる(図5の左側)。   Eight division patterns can be defined as corresponding division patterns of n-gram 1 (left side in FIG. 5).

nグラム1の対応区切パターンのそれぞれについて、確率係数取得部360が取得した区切確率係数を区切確率係数p11〜p18とする。 For each of the corresponding partition patterns of n-gram 1, the partition probability coefficients acquired by the probability coefficient acquisition unit 360 are defined as partition probability coefficients p 11 to p 18 .

次に、nグラム2の対応区切パターンを、8つ定義する(図5の左から2列目)。nグラム2の区切確率係数を区切確率係数p21〜p28とする。
そして、nグラム2の対応区切パターンと、nグラム1の対応区切パターンとにおいて、対応する語間の区切フラグが共通の区切パターン(共通隣接区切パターン)に注目する。
例えば、nグラム1の対応区切パターンの「1豚0バラ0」の共通隣接区切パターンは、nグラム2の対応区切パターンのうち「0バラ0肉0」と「0バラ0肉1」とである。
また、nグラム3のある対応区切パターンの共通隣接区切パターンとして、nグラム2の対応区切パターンのうち対応する語間の区切フラグが共通の2つが挙げられる。例えば、nグラム3の対応区切パターンの「0肉0の0」の共通隣接区切パターンは、nグラム2の対応区切パターンのうち「0バラ0肉0」と「1バラ0肉0」である。
Next, eight corresponding division patterns of n-gram 2 are defined (second column from the left in FIG. 5). The partition probability coefficients of n-gram 2 are defined as partition probability coefficients p 21 to p 28 .
Then, in the corresponding partition pattern of n-gram 2 and the corresponding partition pattern of n-gram 1, attention is paid to a partition pattern (common adjacent partition pattern) having a common partition flag between words.
For example, the common adjacent separation pattern of “1 pig 0 rose 0” of the corresponding division pattern of n gram 1 is “0 rose 0 meat 0” and “0 rose 0 meat 1” of the corresponding division patterns of n gram 2. is there.
Further, as the common adjacent delimiter pattern of the corresponding delimiter pattern of n-gram 3, two common delimiter flags between corresponding words among the corresponding delimiter patterns of n-gram 2 can be cited. For example, the common adjacent separation pattern of “0 meat 0 0” of the corresponding division pattern of n-gram 3 is “0 rose 0 meat 0” and “1 rose 0 meat 0” of the corresponding division patterns of n gram 2. .

nグラム2の対応区切パターン(y番目)のルート確率係数pp2yを、その区切確率係数p2yと、nグラム1の共通隣接区切パターンのうち、大きい方(対応隣接区切パターン、図5の実線の矢印で示すパス)の区切確率係数の値との積とする。
さらに、nグラム3の対応区切パターンのルート確率係数は、その区切確率係数と、nグラム2の共通隣接区切パターンのうち、ルート確率係数が大きい方の共通隣接区切パターン(対応隣接区切パターン、図5の実線の矢印で示すパス)のルート確率係数と、の積とする。このように、図5に示すような隣接nグラムの区切パターンをそれぞれ共通隣接区切パターンどうし対応づけたテーブルを用いてルート確率係数を計算していく。このテーブルをルート確率テーブルと呼ぶ。
The root probability coefficient pp 2y of the corresponding partition pattern (y-th) of n-gram 2 is the larger of the partition probability coefficient p 2y and the common adjacent partition pattern of n-gram 1 (corresponding adjacent partition pattern, solid line in FIG. Product of the path probability indicated by the arrow).
Further, the root probability coefficient of the corresponding partition pattern of n-gram 3 is the common adjacent partition pattern (corresponding adjacent partition pattern, diagram) having the larger root probability coefficient among the partition probability coefficient and the common adjacent partition pattern of n-gram 2. 5) and the root probability coefficient of the path indicated by the solid line arrow 5. In this way, the route probability coefficient is calculated using a table in which the adjacent n-gram partition patterns are associated with each other as shown in FIG. This table is called a route probability table.

nグラム1のルート確率係数を、その区切確率係数と等しいとし、nグラムxの対応区切パターン(y番目)のルート確率係数ppxyは、その区切確率係数pxyと、対応隣接区切パターンのルート確率係数のうち大きい方の値の積であると定義する。 Assume that the root probability coefficient of n-gram 1 is equal to the partition probability coefficient, and the route probability coefficient pp xy of the corresponding partition pattern (y-th) of n-gram x is the root of the partition probability coefficient p xy and the corresponding adjacent partition pattern. It is defined as the product of the larger value of the probability coefficients.

このとき、各対応区切パターンのルート確率係数は、最初のnグラム(nグラム1)からその対応区切パターンまで、最も確からしいルート(最尤ルート)をたどった場合に、そのルートに現れる区切パターンの区切り方で単語列が区切れる確からしさを示す係数である。
このルート確率係数は、最尤ルートに現れる区切パターンの区切確率係数の一つ一つに対して、少なくとも所定の値域では増加関数である任意の式・算出方法で求める係数であるとしてもよい。例えば、最尤ルートに現れる区切パターンの区切確率係数の加算平均としても良い。また、区切確率係数とルート確率係数との対応関係を実験により求め、その対応関係を記憶したテーブルを予めプログラム記憶部703に記憶しておき、このテーブルを参照してルート確率係数を求めても良い。
At this time, the route probability coefficient of each corresponding partition pattern is a partition pattern that appears in the route when the most probable route (maximum likelihood route) is traced from the first n-gram (n-gram 1) to the corresponding partition pattern. This is a coefficient indicating the probability that a word string will be divided by the way of dividing.
This route probability coefficient may be a coefficient obtained by an arbitrary expression / calculation method that is an increasing function at least in a predetermined range for each of the partitioning probability coefficients of the partitioning pattern that appears in the maximum likelihood route. For example, it is good also as an addition average of the division | segmentation probability coefficient of the division | segmentation pattern which appears in a maximum likelihood route. Also, the correspondence relationship between the break probability coefficient and the route probability coefficient is obtained by experiment, a table storing the correspondence relationship is stored in the program storage unit 703 in advance, and the route probability coefficient is obtained by referring to this table. good.

このように、次の隣接nグラムの各区切パターンについてルート確率係数を算出し、最後のnグラム(図5の例ではnグラム7「温野菜−添え」)のルート確率係数pp7yまで算出する。 In this manner, the root probability coefficient is calculated for each of the next adjacent n-gram segmentation patterns, and is calculated up to the root probability coefficient pp 7y of the last n-gram (n-gram 7 “warm vegetables—attached” in the example of FIG. 5). .

ルート確率係数pp7yは、nグラム1からnグラム7まで、その区切パターンに到達する全てのルートのうち最も確からしいルートの区切り方の確からしさを示す係数である。そこで、ルート確率係数pp7y(y=1〜8)のうち最も大きい値を持つ対応区切パターンを選択する。図5の例では、「1温野菜0添え1」(y=4)が選択される。そして、選択された対応区切パターンに至るルートを特定して、単語列Wの最尤ルートとする。 The route probability coefficient pp 7y is a coefficient indicating the probability of the most probable route delimitation among all the routes reaching the delimiter pattern from n-gram 1 to n-gram 7. Therefore, the corresponding delimiter pattern having the largest value among the route probability coefficients pp 7y (y = 1 to 8) is selected. In the example of FIG. 5, “1 warm vegetable 0 with 1” (y = 4) is selected. Then, the route leading to the selected corresponding delimiter pattern is identified and set as the maximum likelihood route of the word string W.

最尤ルートは、選択された区切パターンの隣接対応区切パターンのうちより大きいルート確率係数を持つパターンを選択し、最後のnグラム(nグラム7)から最初のnグラム(nグラム1)まで辿ることにより定めることが出来る。   For the maximum likelihood route, a pattern having a larger root probability coefficient is selected from the adjacent corresponding delimiter patterns of the selected delimiter pattern, and traced from the last n-gram (n-gram 7) to the first n-gram (n-gram 1). Can be determined by

そして、最尤ルートに現れる区切パターンを、それぞれ単語列Wを区切る区切パターンとして選択し、その区切り方で単語列Wを区切ることとする。   Then, a delimiter pattern appearing in the maximum likelihood route is selected as a delimiter pattern that delimits the word string W, and the word string W is delimited by the delimiter pattern.

ルート確率係数算出部370は、各区切パターンのルート確率係数を算出すると、各区切パターンと、算出したルート確率係数と、を対応づけてルート選択部380に伝達する。   When the route probability coefficient calculation unit 370 calculates the route probability coefficient of each partition pattern, the route probability coefficient calculation unit 370 associates each partition pattern with the calculated route probability coefficient and transmits it to the route selection unit 380.

ルート選択部380は、ルート確率係数算出部370から伝達された各区切パターンとそのルート確率係数とから、図5で説明した最尤ルートを求め、区切パターン生成部350が生成した区切パターンから最尤ルートに現れる区切パターンを選択する。ルート選択部380は、選択した区切パターンを単語列分割部390に伝達する。   The route selection unit 380 obtains the maximum likelihood route described in FIG. 5 from each delimiter pattern transmitted from the route probability coefficient calculation unit 370 and the route probability coefficient, and obtains the maximum likelihood from the delimiter pattern generated by the delimiter pattern generation unit 350. Select a delimiter pattern that appears in the likelihood route. The route selection unit 380 transmits the selected division pattern to the word string division unit 390.

単語列分割部390は、ルート選択部380から伝達された区切パターンの区切り方で、単語列Wを各部分列に分割する。そして、分割した単語列の各部分列を、出力部311に伝達する。   The word string dividing unit 390 divides the word string W into each partial string according to the dividing pattern transmitted from the route selecting unit 380. Then, each partial sequence of the divided word sequence is transmitted to the output unit 311.

出力部311は、伝達された単語列Wを分割した部分列を、変換部50に出力する。   The output unit 311 outputs a partial sequence obtained by dividing the transmitted word sequence W to the conversion unit 50.

次に、確率係数出力部40の構成を、図6を参照して説明する
確率係数出力部40は、図6に示すように、区切パターン取得部410、判別部420、(n−1)グラム生成部430、確率係数取得部440、確率係数算出部450、出力部460、記憶部470、から構成される。
Next, the configuration of the probability coefficient output unit 40 will be described with reference to FIG. 6. As shown in FIG. 6, the probability coefficient output unit 40 includes a delimiter pattern acquisition unit 410, a determination unit 420, and (n−1) grams. A generation unit 430, a probability coefficient acquisition unit 440, a probability coefficient calculation unit 450, an output unit 460, and a storage unit 470 are configured.

区切パターン取得部410は、メニュー解析部30から区切パターン(確率係数を取得する必要のある区切パターン)を取得する。ここは区切りパターンはnグラムと、各語間の区切りフラグと、を示す情報から構成される。区切パターン取得部410は、取得した区切パターンを判別部420に伝達する。   The delimiter pattern acquisition unit 410 acquires a delimiter pattern (a delimiter pattern for which a probability coefficient needs to be acquired) from the menu analysis unit 30. Here, the delimiter pattern includes n-grams and information indicating delimiters flags between words. The delimiter pattern acquisition unit 410 transmits the acquired delimiter pattern to the determination unit 420.

判別部420は、区切パターン取得部410から伝達されたnグラムの区切パターンについて、その区切れ方でメニューが区切れる確からしさを示す確率係数が取得できるか否か判別する。判別部420は、判別処理にあたって、記憶部470のnグラムリスト記憶部4710に記憶されたnグラムリストを参照する。nグラムリスト及び判別部420が実行する判別処理の具体的な内容については後述する。   The determination unit 420 determines whether or not a probability coefficient indicating the probability that the menu is divided according to the division method of the n-gram division pattern transmitted from the division pattern acquisition unit 410 can be acquired. The determination unit 420 refers to the n-gram list stored in the n-gram list storage unit 4710 of the storage unit 470 in the determination process. Specific contents of the discrimination process executed by the n-gram list and discrimination unit 420 will be described later.

判別部420は、nグラムの確率係数が取得できると判別すると、確率係数取得部440にnグラムを伝達する。
一方、nグラムの確率係数が取得できないと判別すると、(n−1)グラム生成部430にnグラムを伝達する。
If the determination unit 420 determines that n-gram probability coefficients can be acquired, the determination unit 420 transmits n-grams to the probability coefficient acquisition unit 440.
On the other hand, if it is determined that n-gram probability coefficients cannot be acquired, n-grams are transmitted to the (n−1) -gram generation unit 430.

(n−1)グラム生成部430は、判別部420からnグラムを伝達されると、nグラムを構成する最初の単語からn−1個目の単語から構成される(n−1)グラム(前(n−1)グラム)と、構成する2つ目の単語からn個目の単語から構成されるn−1グラム(後(n−1)グラム)と、を生成する。
(n−1)グラム生成部430は、生成した2つの(n−1)グラムを、判別部420に伝達する。
When (n-1) gram generation unit 430 receives n gram from discrimination unit 420, (n-1) gram (n-1) gram (n-1) from the first word constituting n gram (n-1) gram ( (N-1) gram) and n-1 gram (after (n-1) gram) composed of the nth word from the second word constituting.
The (n-1) gram generation unit 430 transmits the generated two (n-1) grams to the determination unit 420.

判別部420は、(n−1)グラム生成部430から2つの(n−1)グラムを伝達されると、2つの(n−1)グラムのそれぞれについて確率係数が取得できるか否か判別する。2つの(n−1)グラムの何れか一方でも確率係数が取得できない場合は、(n−1)グラム生成部430に3つの(n−2)グラムを生成させ、以下モノグラムになるまで同様に判別処理を繰り返す。判別部420と(n−1)グラム生成部430が実行する処理の具体的な内容については後述する。
判別部420は、(n−1)グラム生成部430からモノグラムを伝達されると、判別処理を実行せずに確率係数取得部440にそのモノグラムを伝達する。
When two (n-1) grams are transmitted from the (n-1) gram generation unit 430, the determination unit 420 determines whether a probability coefficient can be acquired for each of the two (n-1) grams. . If the probability coefficient cannot be acquired by either one of the two (n-1) grams, the (n-1) gram generation unit 430 generates three (n-2) grams, and so on until the monogram is obtained. Repeat the discrimination process. Specific contents of processing executed by the determination unit 420 and the (n-1) gram generation unit 430 will be described later.
When the determination unit 420 receives the monogram from the (n-1) gram generation unit 430, the determination unit 420 transmits the monogram to the probability coefficient acquisition unit 440 without executing the determination process.

確率係数取得部440は、判別部420から区切パターン取得部410が取得した区切パターン(nグラムをよび区切フラグ)を伝達されると、その区切パターンの確率係数を取得して、出力部460に伝達する。
一方、単語列としてn−1グラム〜モノグラム(ここではjグラムとする)を伝達されると、伝達された全てのjグラムについて、区切パターン取得部410が取得した情報が示す区切パターンの確率係数を取得するために必要な区切パターンを生成し、それぞれの区切パターンについて確率係数を取得する。
そして、伝達された全てのjグラムと、生成した区切パターンと、その確率係数と、を確率係数算出部450に伝達する。
確率係数取得部440は、確率係数を取得する処理で教師データ記憶部4730に記憶された教師データを参照してその確率係数を取得する。確率係数取得部440がどのように確率係数を取得するか、その具体的な処理内容については後述する。
The probability coefficient acquisition unit 440 receives the delimiter pattern (n-gram and delimiter flag) acquired by the delimiter pattern acquisition unit 410 from the determination unit 420, acquires the probability coefficient of the delimiter pattern, and outputs it to the output unit 460. introduce.
On the other hand, when n-1 gram to monogram (here, j gram) is transmitted as a word string, the probability coefficient of the delimiter pattern indicated by the information acquired by the delimiter pattern acquisition unit 410 for all the transmitted jgrams To generate a delimiter pattern necessary to acquire the probability coefficient and obtain a probability coefficient for each delimiter pattern.
Then, all the transmitted j-grams, the generated segmentation patterns, and the probability coefficients thereof are transmitted to the probability coefficient calculation unit 450.
The probability coefficient acquisition unit 440 refers to the teacher data stored in the teacher data storage unit 4730 in the process of acquiring the probability coefficient, and acquires the probability coefficient. How the probability coefficient acquisition unit 440 acquires the probability coefficient will be described later in detail.

確率係数算出部450は確率係数取得部440から、伝達された全てのjグラムから生成された区切パターンと、その確率係数を伝達されると、伝達された情報からnグラムの区切パターンの確率係数を算出する。確率係数算出部450がどのようにnグラムの区切パターンの確率係数を算出するかは後述する。
確率係数算出部450は、nグラムの区切パターンの確率係数を算出すると、区切パターン取得部410が取得した、確率係数が必要な区切パターンの確率係数を出力部460に伝達する。
The probability coefficient calculation unit 450 receives the delimiter pattern generated from all the transmitted j-grams from the probability coefficient acquisition unit 440, and the probability coefficient of the n-gram delimiter pattern from the transmitted information. Is calculated. How the probability coefficient calculation unit 450 calculates the probability coefficient of the n-gram segmentation pattern will be described later.
When the probability coefficient calculation unit 450 calculates the probability coefficient of the n-gram delimiter pattern, the probability coefficient calculation unit 450 transmits the probability coefficient of the delimiter pattern required by the delimiter pattern acquisition unit 410 to the output unit 460.

出力部460は、確率係数算出部450から伝達された区切パターンとその確率係数をメニュー解析部30に出力する。   The output unit 460 outputs the division pattern and the probability coefficient transmitted from the probability coefficient calculation unit 450 to the menu analysis unit 30.

記憶部470は、確率係数出力部40の記憶部470を除く各部から情報を伝達され、伝達された情報を記憶する。また、確率係数出力部40の記憶部470を除く各部からのコマンドに応答して、記憶する情報を出力する。   The storage unit 470 receives information from each unit other than the storage unit 470 of the probability coefficient output unit 40 and stores the transmitted information. Further, in response to a command from each unit other than the storage unit 470 of the probability coefficient output unit 40, information to be stored is output.

記憶部470は、nグラムリストを記憶するnグラムリスト記憶部4710、確率係数出力部40が下記する処理を実行するための設定パラメータを記憶する設定記憶部4720、教師データを記憶する教師データ記憶部4730、を含む。   The storage unit 470 includes an n-gram list storage unit 4710 that stores an n-gram list, a setting storage unit 4720 that stores setting parameters for the probability coefficient output unit 40 to execute processing described below, and a teacher data storage that stores teacher data Part 4730.

nグラムリストは、教師データ記憶部4730に記憶された教師データに現れる全てのnグラムを登録したリストである。
nグラムリスト記憶部4710が記憶するnグラムリストの例を、図7を参照して説明する。図7の例では、nグラム記憶部4710は、トライグラムリスト(図7(a))、バイグラムリスト(図7(b))、モノグラムリスト(図7(c))、をそれぞれ記憶する。
トライグラムリストは、教師データに現れる全てのトライグラムを、そのトライグラムを含む教師データが幾つあるかを示すデータ数と関連付けて記憶している。バイグラムリスト、モノグラムリストについても同様である。
The n-gram list is a list in which all n-grams appearing in the teacher data stored in the teacher data storage unit 4730 are registered.
An example of an n-gram list stored in the n-gram list storage unit 4710 will be described with reference to FIG. In the example of FIG. 7, the n-gram storage unit 4710 stores a trigram list (FIG. 7A), a bigram list (FIG. 7B), and a monogram list (FIG. 7C).
The trigram list stores all the trigrams appearing in the teacher data in association with the number of data indicating how many teacher data includes the trigram. The same applies to the bigram list and the monogram list.

次に、確率係数算出部450が、jグラムの区切パターン及びその確率係数を用いて、nグラムの区切パターンの確率係数を算出する処理について、図8を参照して説明する。   Next, a process in which the probability coefficient calculation unit 450 calculates the probability coefficient of the n-gram partition pattern using the j-gram partition pattern and the probability coefficient will be described with reference to FIG.

トライグラムリスト(図7(a))に、あるトライグラム(ここでは「の赤ワイン煮」)が登録されていない、あるいは十分な数(所定の閾値以上)が登録されていない場合に、確率係数算出部450はバイグラムやモノグラムの区切パターンの確率係数からトライグラムの区切パターンの確率係数を算出する。   Probability coefficient when a certain trigram (in this case, “no boiled red wine”) is not registered in the trigram list (FIG. 7A) or a sufficient number (a predetermined threshold or more) is not registered. The calculation unit 450 calculates the probability coefficient of the trigram division pattern from the probability coefficient of the bigram or monogram division pattern.

トライグラム「の赤ワイン煮」の注目区切パターン「0の1赤ワイン0煮1」を算出する場合の算出方法を、図8(a)を参照して説明する。ここで、トライグラムの、前半のバイグラム(前バイグラム)は「の赤ワイン」、後半のバイグラム(後バイグラム)は「赤ワイン煮」である。そして、注目区切パターンに対応するバイグラムの区切パターン(対応区切パターン)は、対応する語間の区切フラグが共通する「0の1赤ワイン0」と「1赤ワイン0煮1」とである。   A calculation method in the case of calculating the attention partitioning pattern “0 1 red wine 0 boiled 1” of the trigram “no red wine boiled” will be described with reference to FIG. Here, the first half of the trigram (front bigram) is “red wine”, and the second bigram (second bigram) is “red wine boiled”. The bigram delimiter patterns (corresponding delimiter patterns) corresponding to the target delimiter pattern are “0 red wine 0” and “1 red wine 0 boiled 1”, which have common delimiter flags between words.

確率係数算出部450はこの対応するバイグラム(jグラム)の区切パターンとその確率係数を確率係数取得部440から伝達されると、区切フラグを比較して対応区切パターンを抽出する。そして、対応区切パターンの区切確率係数を加算平均して、注目区切パターンの区切確率係数とする(図8(a))。   When the probability factor calculation unit 450 receives the corresponding bigram (j-gram) segmentation pattern and its probability factor from the probability coefficient acquisition unit 440, the probability factor calculation unit 450 compares the segmentation flags and extracts the corresponding segmentation pattern. Then, the division probability coefficients of the corresponding division patterns are added and averaged to obtain a division probability coefficient of the target division pattern (FIG. 8A).

同様に、対応するモノグラムの区切パターンとその区切確率係数を確率係数取得部440から取得すると、前・中央・最後尾の各モノグラムから対応区切パターンを抽出し、各対応区切パターンの区切確率係数を加算平均して注目区切パターンの確率係数とする(図8(b))。   Similarly, when the corresponding monogram delimiter pattern and its delimiter probability coefficient are acquired from the probability coefficient acquisition unit 440, the corresponding delimiter pattern is extracted from each monogram of the front, center, and tail, and the delimiter probability coefficient of each corresponding delimiter pattern is obtained. The average of the results is used as a probability coefficient of the notable separation pattern (FIG. 8B).

次に、メニュー表示装置1の情報処理部70が実行する処理について、フローチャート(図9〜図12)を参照して説明する。
メニュー表示装置1は、ユーザが画像入力部10を用いてメニューの画像を取得する操作を実行すると、図9に示すメニュー表示処理を開始する。
Next, processing executed by the information processing unit 70 of the menu display device 1 will be described with reference to flowcharts (FIGS. 9 to 12).
When the user performs an operation for acquiring a menu image using the image input unit 10, the menu display device 1 starts the menu display process shown in FIG. 9.

メニュー表示処理では、まず画像入力部10を用いてメニューの画像を取得する(ステップS101)。
そして、取得した画像から、OCR20が文字を認識して文字列を取得する(ステップS102)。
In the menu display process, first, a menu image is acquired using the image input unit 10 (step S101).
Then, from the acquired image, the OCR 20 recognizes a character and acquires a character string (step S102).

OCR20が文字列を取得してメニュー解析部30に伝達すると、まずメニュー解析部30の分かち書き部320が、文字列を単語単位に分割する分かち書き処理を実行して、文字列を単語列Wに変換する(ステップS103)。
そして、nグラム列生成部330が単語列Wからnグラム列を生成する(ステップS104)。なお、以下n=2として説明する。
When the OCR 20 acquires a character string and transmits it to the menu analysis unit 30, first, the segmentation unit 320 of the menu analysis unit 30 executes a segmentation process that divides the character string into words and converts the character string into the word string W. (Step S103).
Then, the n-gram string generation unit 330 generates an n-gram string from the word string W (step S104). In the following description, n = 2.

そして、メニュー解析部30は、メニューが単語列のどの部位で区切れるか推測し、メニューを分割する処理(メニュー分割処理、ここではメニュー分割処理1)を実行する(ステップS105)。   Then, the menu analysis unit 30 estimates at which part of the word string the menu is divided, and executes processing for dividing the menu (menu division processing, here, menu division processing 1) (step S105).

ステップS105で実行されるメニュー分割処理1を、図10を参照して説明する。メニュー分割処理1ではまずnグラム選択部340が、qをカウンタ変数として、nグラム列のq番目のnグラムを注目nグラムとして選択する(ステップS201)。   The menu division process 1 executed in step S105 will be described with reference to FIG. In the menu division process 1, first, the n-gram selection unit 340 selects q-th n-gram in the n-gram sequence as a target n-gram using q as a counter variable (step S201).

次に、区切パターン生成部350が、注目nグラムについて定義できる区切パターンを生成する(ステップS202)。ここでは、2^(n+1)=8個の区切パターンを生成する。区切パターン生成部350は、生成した区切パターンを図5に示すようなルート確率テーブルに配置する。   Next, the delimiter pattern generation unit 350 generates a delimiter pattern that can be defined for the target n-gram (step S202). Here, 2 ^ (n + 1) = 8 division patterns are generated. The delimiter pattern generation unit 350 arranges the generated delimiter patterns in a route probability table as shown in FIG.

次に、rをカウンタ変数とし、ステップS202で生成した区切パターンのうちr番目の区切パターンを注目区切パターンとして選択する(ステップS203)。
そして、確率係数取得部360が確率係数出力部40に注目区切パターンを伝達して、確率係数出力部40が注目区切パターンの区切確率係数(図5のpqr)を取得する処理(区切確率係数取得処理、ここでは区切確率係数取得処理1)を実行する(ステップS204)。
Next, r is used as a counter variable, and the r-th delimiter pattern is selected as the target delimiter pattern among the delimiter patterns generated in step S202 (step S203).
Then, the probability coefficient acquisition unit 360 transmits the attention break pattern to the probability coefficient output unit 40, and the probability coefficient output unit 40 obtains the break probability coefficient (p qr in FIG. 5) of the attention break pattern (break probability coefficient). An acquisition process, here, a delimitation probability coefficient acquisition process 1) is executed (step S204).

ステップS204で実行される区切確率係数取得処理1を、図11を参照して説明する。
ステップS204に至り、メニュー解析部30からnグラムと、確率係数を算出すべき区切パターンについて情報と、を含む区切パターンを区切パターン取得部410が受信すると、確率係数出力部40は区切確率係数取得処理を開始する。
確率係数取得処理では、まず判別部420がnグラムリスト記憶部4710に記憶されているnグラムリストを参照して、注目nグラムを含む教師データのデータ数を取得する(ステップS301)。
The break probability coefficient acquisition process 1 executed in step S204 will be described with reference to FIG.
In step S204, when the delimiter pattern acquisition unit 410 receives the delimiter pattern including the n-gram from the menu analysis unit 30 and the delimiter pattern for which the probability coefficient is to be calculated, the probability coefficient output unit 40 acquires the delimiter probability coefficient. Start processing.
In the probability coefficient acquisition process, first, the determination unit 420 refers to the n-gram list stored in the n-gram list storage unit 4710, and acquires the number of teacher data including the target n-gram (step S301).

そして、注目nグラムの確率係数を求めるのに十分な数の教師データが存在しているか否か、設定記憶部4720に記憶されたnグラム用(ここではバイグラム)の閾値と注目nグラムのデータ数とを比較して判別する(ステップS302)。   Then, whether or not there is a sufficient number of teacher data for obtaining the probability coefficient of the target n-gram, the threshold value for n-gram (here bigram) stored in the setting storage unit 4720 and the data of the target n-gram A comparison is made with the number (step S302).

注目部分列のデータ数が閾値以上である場合(ステップS302;YES)、十分な数の教師データが存在していると判断できるため、現在の注目部分列(nグラム)をそのまま用いて区切パターンの確率係数を取得する(ステップS303)。   If the number of data in the target subsequence is equal to or greater than the threshold (step S302; YES), it can be determined that there is a sufficient number of teacher data, and therefore the delimiter pattern using the current target subsequence (n-gram) as it is. Is obtained (step S303).

まず、確率係数取得部440がメニュー解析部30から伝達された区切パターンの区切確率係数を取得する(ステップS303)。具体的には、教師データ記憶部4730に記憶された教師データであって注目nグラムを含む教師データを抽出する。このとき抽出されたデータ数をn1とする。抽出された教師データの対応部分の区切フラグと、区切パターンの区切フラグとを比較し、同一の区切れ方をしている教師データを抽出する。このとき抽出されたデータ数をn2とする。区切確率係数pは、n1とn2の比で求められる。
すなわち、p=n2/n1である。
なお、pを求める方法はこれに限らず、pの値が、n2が大きければ大きいほど大きくなり、n1が大きければ大きいほど小さくなる任意の式(例えばp=n2^2/n1^2)で求めることが出来る。
First, the probability coefficient acquisition unit 440 acquires the partition probability coefficient of the partition pattern transmitted from the menu analysis unit 30 (step S303). Specifically, the teacher data that is stored in the teacher data storage unit 4730 and includes the n-gram of interest is extracted. The number of data extracted at this time is n1. The division flag of the corresponding part of the extracted teacher data is compared with the division flag of the division pattern, and the teacher data having the same division method is extracted. The number of data extracted at this time is n2. The delimitation probability coefficient p is obtained by the ratio of n1 and n2.
That is, p = n2 / n1.
Note that the method of obtaining p is not limited to this, and the value of p increases as n2 increases and decreases as n1 increases (for example, p = n2 ^ 2 / n1 ^ 2). You can ask.

一方、注目部分列のデータ数が閾値より小さいか、nリストに登録されていない場合(ステップS302;NO)、十分な数の教師データが記憶されていないと判断できるため、n−1グラム〜モノグラムを用いて確率係数を算出する処理(確率係数算出処理、ここでは確率係数算出処理1)を実行する(ステップS304)。   On the other hand, if the number of data of the target subsequence is smaller than the threshold value or not registered in the n list (step S302; NO), it can be determined that a sufficient number of teacher data is not stored. Processing for calculating a probability coefficient using a monogram (probability coefficient calculation processing, here probability coefficient calculation processing 1) is executed (step S304).

ステップS304で実行される確率係数算出処理1について、図12を参照して説明する。
確率係数算出処理1では、まず(n−1)グラム生成部430が注目文字列(nグラム)の部分列である(n−1)グラムを二つを生成する(ステップS401)。
The probability coefficient calculation process 1 executed in step S304 will be described with reference to FIG.
In the probability coefficient calculation process 1, first, the (n-1) gram generation unit 430 generates two (n-1) grams that are partial sequences of the character string of interest (n gram) (step S401).

そして、判別部420が、二つの(n−1)グラムの両方について、確率係数が取得可能であるか、区切確率係数取得処理(図11)のステップS302と同様にnグラムリスト記憶部4710に記憶された(n−1)グラムリストを比較して判別する。具体的には、対応する(n−1)グラムのデータ数と、所定の(n−1)グラム用の閾値の数とを比較する(ステップS402)。ここで、nグラム用の閾値はそれぞれ任意に設定可能であるが、好ましくはnが大きいほど閾値が大きい。nグラムから定義できる区切パターンの数は2^(n+1)個であり、nが大きくなるにつれてその数は大きくなる。大きな数の区切パターンのそれぞれの確率係数を取得するために十分な教師データの数は、それだけ大きくなるからである。   Then, the determination unit 420 determines whether the probability coefficient can be acquired for both of the two (n-1) grams, or the n-gram list storage unit 4710 similarly to step S302 in the delimitation probability coefficient acquisition process (FIG. 11). The stored (n-1) gram lists are compared and discriminated. Specifically, the number of corresponding (n-1) grams of data is compared with the number of thresholds for a predetermined (n-1) gram (step S402). Here, the threshold for n-gram can be set arbitrarily, but preferably the larger the n, the larger the threshold. The number of delimiter patterns that can be defined from n-grams is 2 ^ (n + 1), and the number increases as n increases. This is because the number of teacher data sufficient to obtain the probability coefficients for each of a large number of delimiter patterns increases accordingly.

全ての(n−1)グラムのデータ数が閾値以上である場合(ステップS402;YES)は、その(n−1)グラム全てについて確率係数を取得できると判断できるので、(n−1)グラムを用いて確率係数を算出する(図5(a))ためにステップS406に移行する。   When the number of data of all (n-1) grams is equal to or greater than the threshold (step S402; YES), it can be determined that probability coefficients can be acquired for all of the (n-1) grams, so (n-1) grams In order to calculate a probability coefficient using (FIG. 5A), the process proceeds to step S406.

何れかの(n−1)グラムのデータ数が閾値より小さい場合(ステップS402;NO)は、何れかの(n−1)グラムについて確率係数を取得できないと判断できるので、(n−2)グラムを用いて確率係数を算出する(図5(b))。
即ち、現在のn−1が1でないか判別し(ステップS403)、1で無い場合は(ステップS403;NO)、nを1減算し(ステップS404)、ステップS401にもどって(n−1)グラムを生成する。
When the number of data of any (n-1) gram is smaller than the threshold (step S402; NO), it can be determined that a probability coefficient cannot be obtained for any (n-1) gram, so (n-2) The probability coefficient is calculated using the gram (FIG. 5B).
That is, it is determined whether or not the current n-1 is 1 (step S403). If it is not 1 (step S403; NO), n is decremented by 1 (step S404), and the process returns to step S401 (n-1). Generate a gram.

一方、n−1が1である場合(ステップS403;YES)、さらにnを減少させることが出来ないため、確率係数が取得不能なモノグラムについて、区切パターンを生成し、その確率係数をデフォルト値(ここでは0.5)とする(ステップS405)。   On the other hand, when n-1 is 1 (step S403; YES), since n cannot be further reduced, a delimiter pattern is generated for a monogram for which a probability coefficient cannot be obtained, and the probability coefficient is set to a default value ( Here, 0.5) is set (step S405).

そして、ステップS401〜ステップS405で全ての確率係数を取得できる(n−1)の値を決定すると、次にその(n−1)グラムの全てについて、メニュー解析部30から伝達された区切パターンと対応する語間で共通する区切フラグをもつ区切パターンを生成する(ステップS406)。そして、生成した区切パターンについて、確率係数取得処理(図11)のステップS303と同様に区切確率係数を取得する(ステップS407)。   And if the value of (n-1) which can acquire all the probability coefficients is determined in step S401 to step S405, then for all of the (n-1) gram, the delimiter pattern transmitted from the menu analysis unit 30 and A delimiter pattern having a delimiter flag common to corresponding words is generated (step S406). Then, for the generated delimiter pattern, a delimiter probability coefficient is acquired in the same manner as in step S303 of the probability coefficient acquisition process (FIG. 11) (step S407).

そして、得られた(n−1)グラムの区切パターンの区切確率係数を加算平均して注目区切パターンの区切確率係数とする(ステップS408)。
そして、確率係数算出処理1は終了する。
Then, the division probability coefficients of the obtained (n-1) gram division pattern are added and averaged to obtain the division probability coefficient of the target division pattern (step S408).
Then, the probability coefficient calculation process 1 ends.

図11にもどって、ステップS303又はステップS304で区切確率係数を取得すると、出力部460が取得した区切確率係数をメニュー解析部30に出力して(ステップS305)、パターン確率係数取得処理は終了する。   Returning to FIG. 11, when the delimiter probability coefficient is acquired in step S303 or step S304, the delimiter probability coefficient acquired by the output unit 460 is output to the menu analysis unit 30 (step S305), and the pattern probability coefficient acquisition process ends. .

図10にもどって、ステップS204で注目区切パターンの区切確率係数(区切確率係数pqr)を取得すると、次にルート確率係数算出部370が注目区切パターンの隣接nグラム列を抽出する(ステップS205)。さらに、隣接nグラムの対応区切パターンのうち、対応する区切フラグが共通する区切パターン(共通隣接区切パターン)を抽出する。
1度目のループでは、隣接nグラム列についての処理がまだ終わっていないため、この処理はスキップされる。
Returning to FIG. 10, when the delimitation probability coefficient (delimitation probability coefficient p qr ) of the target delimiter pattern is acquired in step S204, the route probability coefficient calculation unit 370 next extracts the adjacent n-gram sequence of the target delimiter pattern (step S205). ). Further, from the corresponding n-gram corresponding delimiter patterns, a delimiter pattern (common adjacent delimiter pattern) having a common delimiter flag is extracted.
In the first loop, since the processing for the adjacent n-gram sequence has not been completed, this processing is skipped.

次に、抽出した共通隣接区切パターンのうち、ルート確率係数が大きいほうの区切パターンを選択し、選択された共通隣接区切パターンから注目区切パターンへのパスを、注目区切パターンへ至る最尤パスとして選択する(ステップS206)。
1度目のループでは、隣接部分列についての処理がまだ終わっていないため、この処理はスキップされる。
Next, of the extracted common adjacent delimiter patterns, a delimiter pattern having a larger root probability coefficient is selected, and the path from the selected common adjacent delimiter pattern to the target delimiter pattern is set as the maximum likelihood path to the target delimiter pattern. Select (step S206).
In the first loop, since the processing for the adjacent subsequence has not been completed, this processing is skipped.

そして、ルート確率係数算出部370は、ステップS206で選択した最尤パスの共通隣接区切パターンのルート確率係数と、ステップS204で取得した注目区切パターンの区切確率係数とを乗算して、注目区切確率係数のルート確率係数(ルート確率係数ppqr)とする(ステップS207)。なお、一度目のループでは、注目区切パターンの区切確率係数をルート確率係数とする。 Then, the route probability coefficient calculation unit 370 multiplies the route probability coefficient of the common adjacent partition pattern of the maximum likelihood path selected in step S206 by the partition probability coefficient of the target partition pattern acquired in step S204, and obtains the target partition probability. The root probability coefficient of the coefficient (root probability coefficient pp qr ) is set (step S207). In the first loop, the partition probability coefficient of the target partition pattern is the root probability coefficient.

ステップS207でルート確率係数を算出すると、次に情報処理部70はステップS202で生成した全区切パターンについてルート確率係数を算出する処理が終了したか判別する(ステップS208)。図5の例では、注目nグラム(q列目のnグラム)について生成された8つの区切パターンについてルート確率係数(ppq1〜ppq8)全ての算出が終わっていた場合、処理が終了したと判別される。
全区切パターンについて処理済でないと判別すると(ステップS208;NO)、rをインクリメントし(ステップS209)、次の区切パターンについてステップS203から処理を繰り返す。
Once the route probability coefficient is calculated in step S207, the information processing unit 70 determines whether or not the processing for calculating the route probability coefficient for all the delimiter patterns generated in step S202 is completed (step S208). In the example of FIG. 5, when all the route probability coefficients (pp q1 to pp q8 ) have been calculated for the eight division patterns generated for the target n-gram (the n-gram in the q-th column), the processing is completed. Determined.
If it is determined that the processing has not been completed for all the division patterns (step S208; NO), r is incremented (step S209), and the processing is repeated from step S203 for the next division pattern.

一方、全区切パターンについて処理済であると判別すると(ステップS208;YES)、次に、ステップS104で生成した全nグラムについて区切パターンを生成しルート確率係数を算出する処理を終了したか判別する(ステップS210)。全区切パターンについて処理済でないと判別すると(ステップS210;NO)、qをインクリメントし(ステップS211)、次のnグラムについてステップS201から処理を繰り返す。   On the other hand, if it is determined that all the delimiter patterns have been processed (step S208; YES), it is then determined whether the process of generating delimiter patterns and calculating route probability coefficients for all n-grams generated in step S104 is completed. (Step S210). If it is determined that processing has not been completed for all the delimiter patterns (step S210; NO), q is incremented (step S211), and the processing is repeated from step S201 for the next n-gram.

一方、全nグラムについて処理済であると判別すると(ステップS210;YES)、ルート選択部380が最後のnグラム(図5の例ではnグラム7)の対応区切パターンから最もルート確率係数が大きいものを選択する。図5の例では、記号「*」で示されたルート確率係数pp74が選択される。そして、ルートを逆にたどり、最尤ルート上にある区切パターンをそれぞれ選択する(ステップS212)。 On the other hand, if it is determined that all n-grams have been processed (step S210; YES), the route selection unit 380 has the largest route probability coefficient from the corresponding partition pattern of the last n-gram (n-gram 7 in the example of FIG. 5). Choose one. In the example of FIG. 5, the root probability coefficient pp 74 indicated by the symbol “*” is selected. Then, the route is traced in reverse, and the delimiter patterns on the maximum likelihood route are selected (step S212).

ステップS212で最尤ルート上にある区切パターンを選択すると、単語列分割部390が選択された区切パターンの区切り方で単語列Wを分割して部分列とする(ステップS213)。そして、分割した部分列を出力部311が変換部50に伝達して、メニュー分割処理1は終了する。   When a delimiter pattern on the maximum likelihood route is selected in step S212, the word string dividing unit 390 divides the word string W into partial strings by dividing the selected delimiter pattern (step S213). And the output part 311 transmits the divided | segmented partial sequence to the conversion part 50, and the menu division | segmentation process 1 is complete | finished.

図9にもどって、メニュー分割処理(ステップS105)で、ステップS103で取得した単語列Wを部分列に分割すると、カウンタ変数をiとして、i番目の部分列について変換部50が表示データを生成する処理を実行する。
即ち、i番目の部分列に含まれる各単語の解説データを用語辞書記憶部60から取得して、図2(c)に示すような表示データに変換する(ステップS106)。
Returning to FIG. 9, when the word string W acquired in step S103 is divided into partial strings in the menu dividing process (step S105), the conversion unit 50 generates display data for the i-th partial string with the counter variable as i. Execute the process.
That is, the explanation data of each word included in the i-th partial sequence is acquired from the term dictionary storage unit 60 and converted into display data as shown in FIG. 2C (step S106).

そして、ステップS105で得られた部分列の全てについて表示データに変換する処理が終わったかを判別し(ステップS107)、終わっていない場合は(ステップS107;NO)、カウンタ変数iをインクリメントして(ステップS108)次の部分列についてステップS105から処理を繰り返す。   Then, it is determined whether or not the process of converting all the partial sequences obtained in step S105 into display data has been completed (step S107). If it has not been completed (step S107; NO), the counter variable i is incremented ( Step S108) The processing is repeated from step S105 for the next partial sequence.

一方、全ての部分列について表示データに変換したと判別した場合は(ステップS107;YES)、得られた表示データを表示部80が表示する(ステップS109)。そして、メニュー表示処理1は終了する。   On the other hand, when it is determined that all partial columns have been converted to display data (step S107; YES), the display unit 80 displays the obtained display data (step S109). Then, the menu display process 1 ends.

以上説明したように、本実施形態に係るメニュー表示装置1によれば、教師データに基づいてメニューを表現する単語列を分割することが出来るため、構文解析プログラムを言語ごとに用意しなくても単語列を区切ることが出来る。   As described above, according to the menu display device 1 according to the present embodiment, it is possible to divide a word string expressing a menu based on teacher data, so it is not necessary to prepare a syntax analysis program for each language. Word strings can be separated.

また、区切パターンを選択するに当たって、そのnグラムの区切パターンの区切確率係数と、隣接する区切パターンの区切フラグが共通する共通隣接区切パターンの区切確率係数と、を共に考慮して選択するため、ただnグラムの区切パターンから区切確率係数が大きい区切パターンを選択する場合と比べ、より多くの情報に基づいて区切り方を定めることが出来る。
そのため、本実施形態の区切り方で単語列Wを区切ると、区切り方の精度が高い。
Further, in selecting a delimiter pattern, the delimiter probability coefficient of the n-gram delimiter pattern and the delimiter probability coefficient of the common adjacent delimiter pattern common to the delimiter flags of adjacent delimiter patterns are selected in consideration, However, as compared with the case where a partition pattern having a large partition probability coefficient is selected from n-gram partition patterns, the partition method can be determined based on more information.
For this reason, when the word string W is divided by the dividing method of the present embodiment, the accuracy of the dividing method is high.

本実施形態では、ルート確率係数を、対応区切パターンの区切確率係数の増加関数として求める。そのため、本実施形態のメニュー表示装置1は、nグラムを含む教師データでその区切り方で区切れている確からしさが大きさほど、その区切パターンが単語列Wの区切り方として選択される確率が高くなるため、教師データの区切り方を単語列Wの区切り方に反映することができる。   In the present embodiment, the root probability coefficient is obtained as an increasing function of the partition probability coefficient of the corresponding partition pattern. For this reason, the menu display device 1 of the present embodiment has a higher probability that the delimiter pattern is selected as the delimiter of the word string W as the probability that the delimiter is delimited by the teacher data including n-grams is larger. Therefore, the method of dividing the teacher data can be reflected in the method of dividing the word string W.

また、本実施形態に係るメニュー表示装置1によれば、教師データが所定のカテゴリの文字列(ここではメニュー)から生成されているため、広範なカテゴリ(例えば日本語全体)の教師データを用いて区切パターンの確率係数を求めた場合よりも、カテゴリに合致した確率係数を求めることが出来る。
そのため、メニュー表示装置1を用いてメニューを分割すると、メニューを分割する精度が高い。
Further, according to the menu display device 1 according to the present embodiment, since the teacher data is generated from a character string of a predetermined category (here, a menu), the teacher data of a wide category (for example, the entire Japanese language) is used. Thus, it is possible to obtain a probability coefficient that matches the category, compared to the case where the probability coefficient of the division pattern is obtained.
Therefore, when the menu is divided using the menu display device 1, the accuracy of dividing the menu is high.

本実施形態に係るメニュー表示装置1によれば、メニューを画像入力部10を用いて撮影し、OCR20を用いて文字列を認識してメニューを解析・表示することが出来る。そのため、ユーザがメニューの文字列をわざわざ手で入力せずともメニューの文字列を取り込み、解説データを付加して表示することが出来る。そのため、たとえメニューがユーザが知らない言語で書かれていて、キーによる入力が困難である場合でも解説データを表示することができる。   According to the menu display device 1 according to the present embodiment, a menu can be photographed using the image input unit 10, and a character string can be recognized using the OCR 20 to analyze and display the menu. For this reason, the user can input the menu character string without manually inputting the menu character string, and can display the menu character string. Therefore, even if the menu is written in a language that the user does not know and it is difficult to input with the keys, the comment data can be displayed.

なお、本実施形態に係るメニュー表示装置1のパターン選択部は、ルート確率係数が一番大きいルートの区切パターンを一つ選択して、その区切り方で単語列Wを分割して表示するとした。本実施形態の変形例として、単語列Wを、ルート確率係数が所定の条件(例えば、所定の閾値以上)を満たす複数の区切り方で分割し、それぞれの分割結果を変換して表示する構成も可能である。このような構成によれば、可能性の高い複数の区切り方で解説データを表示してユーザに提示できるため、最も確がルート確率係数が大きい区切り方が間違った区切り方であった場合でも、正しい区切り方を提示できる可能性が増す。   Note that the pattern selection unit of the menu display device 1 according to the present embodiment selects one route separation pattern having the largest route probability coefficient, and divides and displays the word string W according to the division method. As a modification of the present embodiment, the word string W may be divided by a plurality of division methods in which the route probability coefficient satisfies a predetermined condition (for example, a predetermined threshold value or more), and each division result is converted and displayed. Is possible. According to such a configuration, since explanation data can be displayed and presented to the user in a plurality of ways with high possibility, even if the way of dividing with the highest probability of root probability is the wrong way of dividing, Increases the possibility of presenting correct breaks.

また、本実施形態に係る確率係数出力部40によれば、注目するnグラムを含む教師データが十分に得られない場合、あるいは無い場合であっても、そのnグラムの部分列から区切り方に係るデータを取得して、区切パターンの確率係数を求めることが出来る。
即ち、教師学習がある区切パターンで区切れる確率で、解析対象となる単語列(メニュー)も区切れるとの仮定の下、メニューのnグラムの区切パターンでメニューが区切れる確からしさを、(n−1)グラム〜モノグラムの教師データから推測して求めることができる。
そのため、nグラムそのものを含む教師データのみから区切パターンの確率係数を取得してメニューの区切位置を推定するよりも必要な教師データの数が少なくてすむ。
In addition, according to the probability coefficient output unit 40 according to the present embodiment, even when teacher data including the n-gram of interest is not sufficiently obtained or not, it is separated from the substring of the n-gram. Such data can be acquired to obtain the probability coefficient of the separation pattern.
That is, assuming that the word string (menu) to be analyzed is also divided by the probability of being divided by a certain division pattern, the probability that the menu will be divided by the n-gram division pattern of the menu is (n -1) It can be estimated from gram-monogram teacher data.
For this reason, the number of necessary teacher data is smaller than the probability of the partition pattern obtained from only the teacher data including the n-gram itself and estimating the menu partition position.

また、本実施形態ではnグラムの区切パターンの確率係数を、区切フラグが一致するn−1グラム〜モノグラムの区切パターンの確率係数に基づいて算出する。そのため、単語の共通性のみを用いて算出に使用する係数を抽出する場合に比べて、より算出結果の精度が高い。   In this embodiment, the probability coefficient of the n-gram partition pattern is calculated based on the probability coefficient of the n-1 gram to monogram partition pattern with the same partition flag. Therefore, the accuracy of the calculation result is higher than that in the case where the coefficient used for the calculation is extracted using only the word commonality.

さらに、nグラムの部分列である(n−1)グラム〜モノグラム(jグラム)のすべてについて信頼できる確率係数を取得できると判別できるjの値を定め、単語数の区切パターンから確率係数を算出する。そのため、確率係数を算出するにあたって、前のjグラムの情報量と後ろのjグラムの情報量に偏りが無い。そのため、どちらかのjグラムの確率係数がより強く算出結果に影響を与える、といった偏り無くnグラムの確率係数を算出することが出来る。   Further, a value of j that can be determined to be able to obtain a reliable probability coefficient for all of (n-1) grams to monograms (j gram), which are n-gram substrings, is determined, and the probability coefficient is calculated from the delimiter pattern of the number of words. To do. Therefore, when calculating the probability coefficient, there is no bias between the information amount of the previous j-gram and the information amount of the subsequent j-gram. Therefore, the probability coefficient of n-gram can be calculated without any bias such that the probability coefficient of either j-gram more strongly affects the calculation result.

また、本実施形態に係る確率係数出力部40によれば、教師データが所定のカテゴリの文字列(ここではメニュー)から生成されているため、広範なカテゴリ(例えば日本語全体)の教師データを用いて区切パターンの確率係数を求めた場合よりも、カテゴリに合致した確率係数を求めることが出来る。
そのため、確率係数出力部40を含むメニュー表示装置1を用いてメニューを分割すると、メニューを分割する精度が高い。
Further, according to the probability coefficient output unit 40 according to the present embodiment, since the teacher data is generated from a character string (in this case, a menu) of a predetermined category, teacher data of a wide category (for example, the entire Japanese language) is obtained. The probability coefficient that matches the category can be obtained as compared with the case where the probability coefficient of the segmentation pattern is obtained by using it.
Therefore, when the menu is divided using the menu display device 1 including the probability coefficient output unit 40, the accuracy of dividing the menu is high.

(変形例)
以上、本願発明の実施形態について説明したが、本願発明の実施形態はこれに限られない。
例えば、上記説明ではnグラムの確率係数を抽出した部分列(jグラム)の対応パターンの確率係数を加算平均して求めるとしたが、nグラムの確率係数を求める方法はこれに限らない。
nグラムの確率係数は、jグラムの対応パターンの少なくとも一つが大きくなるにつれて、nグラムの確率係数も大きくなるような任意の計算式で代替可能である。例えば、対応パターンの確率係数のうち、最も前に位置する対応パターンの確率係数の影響が大きくなるように重み付けして加算する式、各対応パターンの確率係数を累乗平均する式、等に置換することができる。
また、nグラムの確率係数は所定の最大値(たとえば0.8)をもち、算出値が最大値以上であれば最大値を算出結果としてもよい。
さらに、対応パターンの確率係数と算出値とを対応づけて記憶するテーブルを記憶部470に記憶し、算出式によらずこのテーブルを参照してnグラムの確率係数を求めても良い。
(Modification)
As mentioned above, although embodiment of this invention was described, embodiment of this invention is not restricted to this.
For example, in the above description, the probability coefficient of the corresponding pattern of the partial sequence (j-gram) from which the n-gram probability coefficient is extracted is obtained by averaging. However, the method for obtaining the probability coefficient of n-gram is not limited to this.
The probability coefficient of n-gram can be replaced by any calculation formula that increases the probability coefficient of n-gram as at least one of the corresponding patterns of j-gram increases. For example, among the probability coefficients of the corresponding pattern, the weighted addition is performed so that the influence of the probability coefficient of the corresponding pattern located at the earliest is increased, and the expression of averaging the probability coefficient of each corresponding pattern is a power average. be able to.
Further, the probability coefficient of n-gram has a predetermined maximum value (for example, 0.8), and if the calculated value is equal to or greater than the maximum value, the maximum value may be the calculation result.
Further, a table storing the correspondence pattern probability coefficient and the calculated value in association with each other may be stored in the storage unit 470, and the n-gram probability coefficient may be obtained by referring to this table regardless of the calculation formula.

また、上記実施形態1では、画像入力部10が撮影した画像から単語列Wを抽出したが、ユーザがキーボードを用いて入力した文字列から単語列Wを抽出してもよい。また、音声データから音声認識により文字列を取得しても良い。   In the first embodiment, the word string W is extracted from the image captured by the image input unit 10, but the word string W may be extracted from the character string input by the user using the keyboard. Further, a character string may be acquired from voice data by voice recognition.

また、上記実施形態1では、変換部は単語毎に用語辞書に登録された解説文を付して表示データを作成した。
しかし、本願発明において、分割された単語列を用いて表示データを作成する方法はこれに限られない。例えば、分割された単語列を部分列毎に任意の翻訳器を用いて翻訳し、翻訳結果を表示データとしてもよい。このようなメニュー表示装置によれば、入力されたメニューが例えば中国語であった場合に、日本語だけを理解し、中国語の文字列をキーボードを用いて入力できないユーザであっても、メニューを撮影する操作を実行すれば日本語でメニューの概要を表示することが出来る。
In the first embodiment, the conversion unit creates the display data by adding the explanatory text registered in the term dictionary for each word.
However, in the present invention, the method of creating display data using the divided word strings is not limited to this. For example, the divided word string may be translated for each partial string using an arbitrary translator, and the translation result may be used as display data. According to such a menu display device, even if a user who understands only Japanese and cannot input a Chinese character string using a keyboard when the input menu is, for example, Chinese, the menu You can display the menu summary in Japanese if you perform an operation to shoot.

また、部分列を検索キーワードとして用語辞書等のデータベースを検索し、検索結果を表示データとしてもよい。
さらに、分割された部分列をキーワードとして画像検索し、得られた画像を表示データとして表示しても良い。
このような構成により、例えば部分列が「茎」「ワカメ」や「白ワイン」「蒸し」で有った場合、「茎」と「ワカメ」、「白ワイン」と「蒸し」がひとくくりであることと共に、「茎ワカメ」及び「白ワイン蒸し」についての解説を表示することが出来る。
Alternatively, a database such as a term dictionary may be searched using the partial sequence as a search keyword, and the search result may be used as display data.
Furthermore, an image search may be performed using the divided partial sequences as keywords, and the obtained image may be displayed as display data.
With such a configuration, for example, when the subsequence is “stem”, “wakame”, “white wine”, and “steamed”, “stem” and “wakame”, “white wine” and “steamed” are all gathered. At the same time, the explanation about “Stem Wakame” and “Steamed White Wine” can be displayed.

また、上記実施形態1では、解析対象となる単語列はメニューであったが、本発明はメニュー以外の任意のカテゴリの単語列について応用可能である。本発明の解析対象となる単語列は、現れる単語が限られていること、単語と単語との区切り方のルールが限定されていること、を特徴とするカテゴリの単語列であることが好ましい。このようなカテゴリの単語列の例として、メニューの他に住所、薬品の効能書き・説明書、等があげられる。   In the first embodiment, the word string to be analyzed is a menu, but the present invention can be applied to a word string of an arbitrary category other than the menu. The word string to be analyzed according to the present invention is preferably a word string of a category characterized by the fact that the words that appear are limited and the rules for how to separate the words are limited. Examples of word strings in such categories include addresses, medicinal benefits / instructions, etc. in addition to menus.

さらに、上記実施形態では単語列の先頭及び末尾について特別の処理を実行しなかった。しかし、本発明では、単語列の先頭に先頭であることを示す記号(BOS;Begin of sentence)を、末尾に末尾であることを示す記号(EOS;End of sentence)をそれぞれダミー単語として配置して上記処理を実行しても良い。この場合、教師データは単語列の先頭にBOSを、末尾にEOSを配置したデータとなる。また、nグラム列生成部330は、nグラム列を生成するに当たって、先頭にBOSを、末尾にEOSを配置してnグラム列を生成する。
これにより、単語列Wの区切り方を、単語列の先頭・末尾の位置を考慮して推測することが出来る。そのため、高い精度で単語列を区切ることが出来る。
Further, in the above embodiment, no special processing is executed for the beginning and end of the word string. However, in the present invention, a symbol (BOS; Begin of sentence) indicating the beginning and a symbol (EOS; End of sentence) indicating the end are arranged as dummy words at the beginning of the word string. The above process may be executed. In this case, the teacher data is data in which BOS is arranged at the beginning of the word string and EOS is arranged at the end. In addition, when generating the n-gram sequence, the n-gram sequence generation unit 330 generates an n-gram sequence by arranging BOS at the beginning and EOS at the end.
Thereby, it is possible to infer how to divide the word string W in consideration of the positions of the beginning and end of the word string. Therefore, the word string can be separated with high accuracy.

なお、上記説明では、教師データは確率係数出力部40が記憶するとしたが、教師データは外部サーバに記憶されており、通信部705を用いて必要に応じて取得するとしてもよい。
また、上記実施形態1では、nグラムの区切パターンの確率係数を求めるにあたって、タグ付の文字列である教師データにおける区切パターンの出現確率を逐一求めていた。しかし、確率係数出力装置又は外部装置が区切パターンの確率係数を登録した区切パターン確率係数リストを記憶しており、この区切パターン確率係数リストを参照して確率係数を取得する構成も可能である。このようなパターン確率係数リストの例を、図13を参照して説明する。図13は、区切パターン確率係数リストの一種である、バイグラムと、区切フラグと、に対応する確率係数を登録したバイグラム区切パターン確率係数リストの例である。例えば、パターン「010」の列、「豚−バラ肉」の行、に数値0.02が登録されていることは、区切パターン「0豚1バラ肉0」の確率係数が0.02であることを示す。この変形例のメニュー表示装置1はデータ記憶部702にモノグラム〜nグラムの各区切パターン確率係数リストを記憶しており、これらを参照して必要な各nグラム〜モノグラムの区切パターンの確率係数を取得する。
In the above description, the teacher data is stored in the probability coefficient output unit 40. However, the teacher data may be stored in an external server and may be acquired as necessary using the communication unit 705.
In the first embodiment, when the probability coefficient of the n-gram delimiter pattern is obtained, the appearance probability of the delimiter pattern in the teacher data that is a tagged character string is obtained one by one. However, a configuration is also possible in which a probability pattern output device or an external device stores a delimiter pattern probability coefficient list in which delimiter pattern probability coefficients are registered, and a probability coefficient is obtained by referring to this delimiter pattern probability coefficient list. An example of such a pattern probability coefficient list will be described with reference to FIG. FIG. 13 is an example of a bigram delimiter pattern probability coefficient list in which probability coefficients corresponding to bigrams and delimiter flags, which are a kind of delimiter pattern probability coefficient list, are registered. For example, if the numerical value 0.02 is registered in the column of the pattern “010” and the row of “Pig-Rose”, the probability coefficient of the division pattern “0 pork 1 rose 0” is 0.02. It shows that. The menu display device 1 of this modification stores a list of monogram to n-gram delimiter pattern probability coefficients in the data storage unit 702, and refers to these lists to determine the necessary n-gram to monogram delimiter pattern probability coefficients. get.

また、区切り方を示すルートを検索する方法は上記方法に限らない。本発明は、各区切パターンの確率係数を距離(重み)として用いることを条件に、距離が最小(あるいは閾値以下)となるルートを検索する既知の任意の(最短)経路探索方法を上記方法に変わって用いることが出来る。   Further, the method for searching for the route indicating the way of separation is not limited to the above method. The present invention provides a known arbitrary (shortest) route search method for searching for a route having a minimum distance (or less than a threshold) on the condition that the probability coefficient of each division pattern is used as a distance (weight). It can be used in a different way.

また、情報処理部701、データ記憶部702,プログラム記憶部703、等から構成されるメニュー表示装置のための処理を行う中心となる部分は、専用のシステムによらず、通常のコンピュータシステムを用いて実現可能である。たとえば、前記の動作を実行するためのコンピュータプログラムを、コンピュータが読み取り可能な記録媒体(フレキシブルディスク、CD−ROM、DVD−ROM等)に格納して配布し、当該コンピュータプログラムをコンピュータにインストールすることにより、前記の処理を実行する情報端末を構成してもよい。また、インターネット等の通信ネットワーク上のサーバ装置が有する記憶装置に当該コンピュータプログラムを格納しておき、通常のコンピュータシステムがダウンロード等することで情報処理装置を構成してもよい。   In addition, the central part that performs processing for the menu display device including the information processing unit 701, the data storage unit 702, the program storage unit 703, and the like uses a normal computer system, not a dedicated system. Is feasible. For example, a computer program for executing the above operation is stored and distributed in a computer-readable recording medium (flexible disk, CD-ROM, DVD-ROM, etc.), and the computer program is installed in the computer. Thus, an information terminal that executes the above-described processing may be configured. Alternatively, the computer program may be stored in a storage device included in a server device on a communication network such as the Internet, and the information processing device may be configured by being downloaded by a normal computer system.

また、メニュー表示装置の機能を、OS(オペレーティングシステム)とアプリケーションプログラムの分担、またはOSとアプリケーションプログラムとの協働により実現する場合などには、アプリケーションプログラム部分のみを記録媒体や記憶装置に格納してもよい。   Further, when the function of the menu display device is realized by sharing the OS (operating system) and the application program or by cooperation between the OS and the application program, only the application program portion is stored in the recording medium or the storage device. May be.

また、搬送波にコンピュータプログラムを重畳し、通信ネットワークを介して配信することも可能である。たとえば、通信ネットワーク上の掲示板(BBS:Bulletin Board System)に前記コンピュータプログラムを掲示し、ネットワークを介して前記コンピュータプログラムを配信してもよい。そして、このコンピュータプログラムを起動し、OSの制御下で、他のアプリケーションプログラムと同様に実行することにより、前記の処理を実行できるように構成してもよい。   It is also possible to superimpose a computer program on a carrier wave and distribute it via a communication network. For example, the computer program may be posted on a bulletin board (BBS: Bulletin Board System) on a communication network, and the computer program may be distributed via the network. The computer program may be started and executed in the same manner as other application programs under the control of the OS, so that the above-described processing may be executed.

また、上記メニュー表示装置が実行する処理の一部を、メニュー表示装置とは独立したコンピュータを用いて実現しても良い。   Moreover, you may implement | achieve a part of process which the said menu display apparatus performs using the computer independent of the menu display apparatus.

以上、本発明の好ましい実施形態について説明したが、本発明は係る特定の実施形態に限定されるものではなく、本発明には、特許請求の範囲に記載された発明とその均等の範囲が含まれる。以下に、本願出願の当初の特許請求の範囲に記載された発明を付記する。   As mentioned above, although preferable embodiment of this invention was described, this invention is not limited to the specific embodiment which concerns, This invention includes the invention described in the claim, and its equivalent range It is. Hereinafter, the invention described in the scope of claims of the present application will be appended.

(付記1)
解析対象となる単語列を取得する取得部と、
前記取得部が取得した単語列に含まれる単語から構成される部分列を抽出する抽出部と、
前記抽出部が抽出した部分列に含まれる単語と単語との間である語間のそれぞれについて、その語間で前記取得部が取得した単語列が区切れる場合と区切れない場合とに対応する区切パターンを、複数生成するパターン生成部と、
前記抽出部が抽出した部分列のそれぞれについて、当該部分列を含む教師単語列において、前記パターン生成部が生成した区切パターンそれぞれに対応する区切れ方で教師単語列が区切れる確からしさである区切確率係数を区切パターン毎に取得する確率係数取得部と、
前記抽出部が抽出した部分列のそれぞれについて前記パターン生成部が生成した複数の区切パターンから、前記確率係数取得部が取得した当該区切パターンの区切確率係数と、当該区切パターンの部分列と対応する語間を含む部分列である隣接部分列の区切パターンのうち対応する語間について同じ区切り方を示す対応隣接区切パターンの区切確率係数と、に基づいて前記取得部が取得した単語列の区切り方を示す区切パターンを選択する選択部と、
前記選択部が選択した区切パターンの区切り方で、前記取得部が取得した単語列を分割する分割部と、
を備えることを特徴とする情報処理装置。
(Appendix 1)
An acquisition unit for acquiring a word string to be analyzed;
An extraction unit for extracting a partial sequence composed of words included in the word sequence acquired by the acquisition unit;
For each word between words included in the partial sequence extracted by the extraction unit, corresponding to the case where the word sequence acquired by the acquisition unit between the words is separated from the case A pattern generator for generating a plurality of delimiter patterns;
For each partial sequence extracted by the extraction unit, in the teacher word sequence including the partial sequence, a delimitation that is a probability that the teacher word sequence is delimited by a delimiter corresponding to each delimiter pattern generated by the pattern generation unit A probability coefficient acquisition unit for acquiring a probability coefficient for each separation pattern;
Corresponding to the delimitation probability coefficient of the delimiter pattern acquired by the probability coefficient acquisition unit from the delimiter patterns generated by the pattern generation unit for each of the partial sequences extracted by the extraction unit, and the substring of the delimiter pattern Delimitation method of the word sequence acquired by the acquisition unit based on the delimitation probability coefficient of the corresponding adjacent delimiter pattern indicating the same delimitation method for the corresponding delimiters among the delimiters of adjacent subsequences that are subsequences including words A selection unit for selecting a delimiter pattern indicating
A dividing unit that divides the word string acquired by the acquisition unit in a way of dividing the separation pattern selected by the selection unit;
An information processing apparatus comprising:

(付記2)
前記部分列の区切パターンの区切確率係数と、前記対応隣接区切パターンの区切確率係数と、から区切パターンを選択するための係数である選択係数を求める選択係数獲得部をさらに備え、
前記選択部は前記選択係数獲得部が求めた選択係数が他の区切パターンより大きい区切パターンを選択する、
ことを特徴とする付記1に記載の情報処理装置。
(Appendix 2)
A selection coefficient acquisition unit for obtaining a selection coefficient that is a coefficient for selecting a division pattern from the division probability coefficient of the division pattern of the partial sequence and the division probability coefficient of the corresponding adjacent division pattern;
The selection unit selects a delimiter pattern in which the selection coefficient obtained by the selection coefficient acquisition unit is larger than other delimiter patterns;
The information processing apparatus according to appendix 1, wherein

(付記3)
前記選択確率獲得部が求める選択係数は、前記部分列の区切パターンの区切確率係数と、前記対応隣接区切パターンの区切確率係数又は選択係数の少なくとも一つと、の少なくとも一方が大きくなると大きくなる、
ことを特徴とする付記2に記載の情報処理装置。
(Appendix 3)
The selection coefficient obtained by the selection probability acquisition unit is increased when at least one of the partitioning probability coefficient of the partitioning pattern of the partial sequence and at least one of the partitioning probability coefficient or the selection coefficient of the corresponding adjacent partitioning pattern is increased.
The information processing apparatus according to Supplementary Note 2, wherein

(付記4)
前記教師単語列は、前記解析対象となる単語列と同一カテゴリに属する単語列であって、当該単語列の語間のそれぞれで単語列が区切れるか否かを定義した単語列である、
ことを特徴とする付記1乃至3の何れか一項に記載の情報処理装置。
(Appendix 4)
The teacher word string is a word string that belongs to the same category as the word string to be analyzed, and is a word string that defines whether or not the word string is divided between words of the word string.
The information processing apparatus according to any one of supplementary notes 1 to 3, wherein:

(付記5)
前記解析対象となる単語列と前記教師単語列とが献立を表現する単語列である、
ことを特徴とする付記4に記載の情報処理装置。
(Appendix 5)
The word string to be analyzed and the teacher word string are word strings expressing menus,
The information processing apparatus according to supplementary note 4, wherein:

(付記6)
文字列の画像を撮影する撮影部と、
前記撮影部が撮影した画像から文字列を抽出する文字列抽出部と、
前記文字列抽出部が抽出した文字列から単語列を生成する単語列生成部と、
前記単語列生成部が生成した単語列に含まれる単語から構成される部分列を抽出する部分列抽出部と、
前記部分列抽出部が抽出した部分列に含まれる単語と単語との間である語間のそれぞれについて、その語間で前記単語列生成部が生成した単語列が区切れる場合と区切れない場合とに対応する区切パターンを、複数生成するパターン生成部と、
前記部分列抽出部が抽出した部分列のそれぞれについて、当該部分列を含む教師単語列において、前記パターン生成部が生成した区切パターンそれぞれに対応する区切れ方で教師単語列が区切れる確からしさである区切確率係数を区切パターン毎に取得する確率係数取得部と、
前記部分列抽出部が抽出した部分列のそれぞれについて前記パターン生成部が生成した複数の区切パターンから、前記確率係数取得部が取得した当該区切パターンの区切確率係数と、当該区切パターンの部分列と対応する語間を含む部分列である隣接部分列の区切パターンのうち対応する語間について同じ区切り方を示す対応隣接区切パターンの区切確率係数と、に基づいて前記単語列生成部が生成した単語列の区切り方を示す区切パターンを選択する選択部と、
前記選択部が選択した区切パターンの区切り方で、前記単語列生成部が生成した単語列を分割する分割部と、
前記分割部が分割した単語列のそれぞれについて、当該分割した単語列に含まれる単語又は単語列に対応する表示データに変換する変換部と、
前記変換部が変換した表示データを表示する表示部と、
を備えることを特徴とするデータ表示装置。
(Appendix 6)
A shooting unit for shooting images of character strings;
A character string extraction unit that extracts a character string from an image captured by the imaging unit;
A word string generation unit that generates a word string from the character string extracted by the character string extraction unit;
A partial sequence extraction unit that extracts a partial sequence composed of words included in the word sequence generated by the word sequence generation unit;
When each of the words between the words included in the partial sequence extracted by the partial sequence extraction unit is separated from the word sequence generated by the word sequence generation unit between the words A pattern generation unit that generates a plurality of delimiter patterns corresponding to
For each partial sequence extracted by the partial sequence extraction unit, in the teacher word sequence including the partial sequence, there is a certainty that the teacher word sequence will be divided according to the division method corresponding to each division pattern generated by the pattern generation unit. A probability coefficient acquisition unit that acquires a certain delimitation probability coefficient for each delimiter pattern;
For each of the partial sequences extracted by the partial sequence extraction unit, from the plurality of division patterns generated by the pattern generation unit, the division probability coefficient of the division pattern acquired by the probability coefficient acquisition unit, and the partial sequence of the division pattern A word generated by the word string generation unit based on a delimitation probability coefficient of a corresponding adjacent delimiter pattern indicating the same delimitation method between corresponding words among delimiter patterns of adjacent subsequences that are subsequences including corresponding word spaces A selection section for selecting a delimiter pattern indicating how to delimit the columns;
A dividing unit that divides the word string generated by the word string generation unit in a way of dividing the separation pattern selected by the selection unit;
A conversion unit that converts each of the word strings divided by the dividing unit into display data corresponding to a word or word string included in the divided word string;
A display unit for displaying the display data converted by the conversion unit;
A data display device comprising:

(付記7)
コンピュータに、
解析対象となる単語列を取得する処理、
前記取得した単語列に含まれる単語から構成される部分列を抽出する処理、
前記抽出した部分列に含まれる単語と単語との間である語間のそれぞれについて、その語間で前記取得した単語列が区切れる場合と区切れない場合とに対応する区切パターンを、複数生成する処理、
前記抽出した部分列のそれぞれについて、当該部分列を含む教師単語列において、前記生成した区切パターンそれぞれに対応する区切れ方で教師単語列が区切れる確からしさである区切確率係数を区切パターン毎に取得する処理、
前記抽出した部分列について生成した複数の区切パターンから、前記取得した当該区切パターンの区切確率係数と、当該区切パターンの部分列と対応する語間を含む部分列である隣接部分列の区切パターンのうち対応する語間について同じ区切り方を示す対応隣接区切パターンの区切確率係数と、に基づいて前記取得した単語列の区切り方を示す区切パターンを選択する処理、
前記選択した区切パターンの区切り方で、前記取得した単語列を分割する処理、
を実行させることを特徴とするプログラム。
(Appendix 7)
On the computer,
Processing to obtain word strings to be analyzed,
A process of extracting a partial sequence composed of words included in the acquired word sequence;
For each word between the words included in the extracted subsequence, a plurality of delimiter patterns corresponding to the case where the acquired word sequence is delimited and the case where the acquired word sequence is not delimited between the words are generated Processing,
For each of the extracted subsequences, a delimitation probability coefficient that is a probability that the teacher word sequence is delimited by the delimiter corresponding to each of the generated delimiter patterns in each of the delimiter patterns in the teacher word sequence including the partial sequence. Processing to get,
From a plurality of segmentation patterns generated for the extracted subsequences, a segmentation probability coefficient of the obtained segmentation pattern and a segmentation pattern of an adjacent subsequence that is a subsequence including a word space corresponding to the subsequence of the segmentation pattern A process of selecting a delimiter pattern indicating how to delimit the acquired word string based on a delimiter probability coefficient of a corresponding adjacent delimiter pattern indicating the same delimiter among corresponding words,
A process of dividing the acquired word string in a way of dividing the selected separation pattern;
A program characterized by having executed.

1…メニュー表示装置、10…画像入力部、20…OCR、30…メニュー解析部、40…確率係数出力部、50…変換部、60…用語辞書記憶部、70…情報処理部、80…表示部、90…操作入力部、701…情報処理部、702…データ記憶部、703…プログラム記憶部、704…入出力部、705…通信部、706…内部バス、707…制御プログラム、310…文字列取得部、311…出力部、320…分かち書き部、330…nグラム列生成部、340…nグラム選択部、350…区切りパターン生成部、360…確率係数取得部、370…ルート確率係数算出部、380…ルート選択部、390…単語列分割部、410…区切パターン取得部、420…判別部、430…(n−1)グラム生成部、440…確率係数取得部、450…確率係数算出部、460…出力部、470…記憶部、4710…nグラムリスト記憶部、4720…設定記憶部、4730…教師データ記憶部、I1…画像   DESCRIPTION OF SYMBOLS 1 ... Menu display apparatus, 10 ... Image input part, 20 ... OCR, 30 ... Menu analysis part, 40 ... Probability coefficient output part, 50 ... Conversion part, 60 ... Term dictionary memory | storage part, 70 ... Information processing part, 80 ... Display 90, operation input unit, 701 ... information processing unit, 702 ... data storage unit, 703 ... program storage unit, 704 ... input / output unit, 705 ... communication unit, 706 ... internal bus, 707 ... control program, 310 ... character Sequence acquisition unit, 311 ... output unit, 320 ... segmentation unit, 330 ... n-gram sequence generation unit, 340 ... n-gram selection unit, 350 ... delimiter pattern generation unit, 360 ... probability coefficient acquisition unit, 370 ... route probability coefficient calculation unit 380 ... Route selection unit, 390 ... Word string division unit, 410 ... Separation pattern acquisition unit, 420 ... Discrimination unit, 430 ... (n-1) Gram generation unit, 440 ... Probability coefficient acquisition unit, 50 ... probability factor calculation section, 460 ... output unit, 470 ... storage unit, 4710 ... n gram list storage unit, 4720 ... setting storage unit, 4730 ... teacher data storage unit, I1 ... image

Claims (5)

複数の単語列を集めた教師データを記憶している教師データ記憶部と、
解析対象となる単語列を取得する取得部と、
前記取得部が取得した単語列の先頭から末尾まで順番に、連続する複数の単語からなる部分列を抽出する抽出部と、
前記抽出部が抽出した部分列に含まれる単語と単語との間である語間のそれぞれについて、その語間で前記取得部が取得した単語列が区切れる場合と区切れない場合とに対応する区切パターンを、複数生成するパターン生成部と、
前記抽出部が抽出した部分列のそれぞれについて、前記パターン生成部が生成した複数の区切パターンに対応する区切れ方で区切れる確からしさである区切確率係数を、前記教師データ記憶部に記憶されている前記抽出した部分列を含む単語列の数と前記抽出した部分列であって前記区切パターンに対応する区切れ方で区切られている単語列の数との比に基づいて、取得する確率係数取得部と、
前記確率係数取得部により取得された部分列のそれぞれの区切パターンの区切確率係数と、当該部分列の1つ前の部分列であって当該部分列と共通する区切パターンを有する部分列の区切確率係数の大きい方とを乗算して、当該部分列までのルート確率係数を算出するルート確率係数算出部と、
前記ルート確率係数算出部により前記抽出部が抽出した末尾の部分列までのルート確率係数が算出された後に、最も大きなルート確率係数が得られたルートを選択する選択部と、
前記選択部が選択したルートに対応する区切パターンの区切り方で、前記取得部が取得した単語列を分割する分割部と、
を備えることを特徴とする情報処理装置。
A teacher data storage unit storing teacher data obtained by collecting a plurality of word strings;
An acquisition unit for acquiring a word string to be analyzed;
An extraction unit for extracting a partial sequence consisting of a plurality of consecutive words in order from the beginning to the end of the word sequence acquired by the acquisition unit;
For each word between words included in the partial sequence extracted by the extraction unit, corresponding to the case where the word sequence acquired by the acquisition unit between the words is separated from the case A pattern generator for generating a plurality of delimiter patterns;
For each partial sequence extracted by the extraction unit , a delimitation probability coefficient that is a probability of being delimited by a delimiter corresponding to a plurality of delimiter patterns generated by the pattern generation unit is stored in the teacher data storage unit. A probability coefficient to be acquired based on a ratio between the number of word strings including the extracted partial sequence and the number of word sequences that are the extracted partial sequences and separated by the division method corresponding to the division pattern An acquisition unit;
The delimitation probability coefficient of each delimiter pattern of the subsequence acquired by the probability coefficient acquisition unit, and the delimitation probability of the subsequence that is the subsequence immediately before the subsequence and has a delimiter pattern common to the subsequence A route probability coefficient calculation unit that calculates a route probability coefficient up to the subsequence by multiplying the larger one of the coefficients;
A selection unit that selects a route from which the largest route probability coefficient is obtained after the route probability coefficient to the last partial sequence extracted by the extraction unit is calculated by the route probability coefficient calculation unit ;
A dividing unit that divides the word string acquired by the acquisition unit in a way of dividing a separation pattern corresponding to the route selected by the selection unit;
An information processing apparatus comprising:
前記教師データ記憶部が記憶している単語列は、前記解析対象となる単語列と同一カテゴリに属する単語列であって、当該単語列の語間のそれぞれで単語列が区切れるか否かを定義した単語列である、
ことを特徴とする請求項1に記載の情報処理装置。
The word string stored in the teacher data storage unit is a word string belonging to the same category as the word string to be analyzed, and whether or not the word string is divided between words of the word string. A defined word string,
The information processing apparatus according to claim 1 .
前記解析対象となる単語列と前記教師データ記憶部が記憶している単語列とが献立を表現する単語列である、
ことを特徴とする請求項1又は2に記載の情報処理装置。
The word string to be analyzed and the word string stored in the teacher data storage unit are word strings expressing menus,
The information processing apparatus according to claim 1 or 2 .
文字列の画像を撮影する撮影部と、  A shooting unit for shooting images of character strings;
前記撮影部が撮影した画像から文字列を抽出する文字列抽出部と、  A character string extraction unit that extracts a character string from an image captured by the imaging unit;
を備え、With
前記取得部は、前記文字列抽出部が抽出した文字列から解析対象となる単語列を取得する、  The acquisition unit acquires a word string to be analyzed from the character string extracted by the character string extraction unit;
ことを特徴とする請求項1乃至3の何れか一つに記載の情報処理装置。  The information processing apparatus according to claim 1, wherein the information processing apparatus is an information processing apparatus.
複数の単語列を集めた教師データを記憶している教師データ記憶部を有するコンピュータに、
解析対象となる単語列を取得する取得処理
前記取得処理が取得した単語列の先頭から末尾まで順番に、連続する複数の単語からなる部分列を抽出する抽出処理
前記抽出処理が抽出した部分列に含まれる単語と単語との間である語間のそれぞれについて、その語間で前記取得処理が取得した単語列が区切れる場合と区切れない場合とに対応する区切パターンを、複数生成するパターン生成処理
前記抽出処理が抽出した部分列のそれぞれについて、前記パターン生成処理が生成した複数の区切パターンに対応する区切れ方で区切れる確からしさである区切確率係数を、前記教師データ記憶部に記憶されている前記抽出した部分列を含む単語列の数と前記抽出した部分列であって前記区切パターンに対応する区切れ方で区切られている単語列の数との比に基づいて、取得する確率係数取得処理
前記確率係数取得処理により取得された部分列のそれぞれの区切パターンの区切確率係数と、当該部分列の1つ前の部分列であって当該部分列と共通する区切パターンを有する部分列の区切確率係数の大きい方とを乗算して、当該部分列までのルート確率係数を算出するルート確率係数算出処理と、
前記ルート確率係数算出処理により前記抽出処理が抽出した末尾の部分列までのルート確率係数が算出された後に、最も大きなルート確率係数が得られたルートを選択する選択処理
前記選択処理が選択したルートに対応する区切パターンの区切り方で、前記取得処理が取得した単語列を分割する分割処理
を実行させることを特徴とするプログラム。
In a computer having a teacher data storage unit storing teacher data obtained by collecting a plurality of word strings ,
An acquisition process of acquiring a word string to be analyzed,
In order from the beginning of a word sequence in which the acquisition process is acquired to the end, an extraction process of extracting a partial sequence consisting of a plurality of consecutive words,
Corresponding to the case where the word string acquired by the acquisition process is divided between words and the case where the word string acquired by the acquisition process is not divided between each word between words included in the partial sequence extracted by the extraction process A pattern generation process for generating a plurality of delimiter patterns;
For each partial sequence extracted by the extraction process , a delimitation probability coefficient that is a probability of being delimited by a delimiter corresponding to a plurality of delimiter patterns generated by the pattern generation process is stored in the teacher data storage unit. A probability coefficient to be acquired based on a ratio between the number of word strings including the extracted partial sequence and the number of word sequences that are the extracted partial sequences and separated by the division method corresponding to the division pattern and the acquisition process,
A delimitation probability coefficient of each delimiter pattern of the partial sequence acquired by the probability coefficient acquisition process, and a delimiter probability of a partial sequence that is a partial sequence immediately before the partial sequence and has a delimiter pattern common to the partial sequence A route probability coefficient calculation process for calculating a route probability coefficient up to the subsequence by multiplying the larger one of the coefficients;
After root probability factor of by the route probability coefficient calculation process to subsequences of trailing the extraction process has extracted is calculated, the selection process to select the most significant route probability factor is obtained route,
The selection process is a better separator division pattern corresponding to the selected route, a dividing process for dividing a word string in which the acquisition process is acquired,
A program characterized by having executed.
JP2012034573A 2011-10-27 2012-02-20 Information processing apparatus and program Active JP5870744B2 (en)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2012034573A JP5870744B2 (en) 2012-02-20 2012-02-20 Information processing apparatus and program
US13/656,893 US20130110499A1 (en) 2011-10-27 2012-10-22 Information processing device, information processing method and information recording medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012034573A JP5870744B2 (en) 2012-02-20 2012-02-20 Information processing apparatus and program

Publications (2)

Publication Number Publication Date
JP2013171413A JP2013171413A (en) 2013-09-02
JP5870744B2 true JP5870744B2 (en) 2016-03-01

Family

ID=49265304

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012034573A Active JP5870744B2 (en) 2011-10-27 2012-02-20 Information processing apparatus and program

Country Status (1)

Country Link
JP (1) JP5870744B2 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014056362A (en) * 2012-09-11 2014-03-27 Casio Comput Co Ltd Information processor, data display device and program

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5978645B2 (en) * 2012-02-22 2016-08-24 カシオ計算機株式会社 Information processing apparatus, data display apparatus, and program

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3938234B2 (en) * 1997-12-04 2007-06-27 沖電気工業株式会社 Natural language processing device
JP5834772B2 (en) * 2011-10-27 2015-12-24 カシオ計算機株式会社 Information processing apparatus and program

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014056362A (en) * 2012-09-11 2014-03-27 Casio Comput Co Ltd Information processor, data display device and program

Also Published As

Publication number Publication date
JP2013171413A (en) 2013-09-02

Similar Documents

Publication Publication Date Title
JP5010885B2 (en) Document search apparatus, document search method, and document search program
TWI656450B (en) Method and system for extracting knowledge from Chinese corpus
WO2017177809A1 (en) Word segmentation method and system for language text
JP5646792B2 (en) Word division device, word division method, and word division program
WO2007049792A1 (en) Apparatus, method, and storage medium storing program for determining naturalness of array of words
JP5927955B2 (en) Information processing apparatus and program
EP2806336A1 (en) Text prediction in a text input associated with an image
KR20160029587A (en) Method and apparatus of Smart Text Reader for converting Web page through TTS
JP5834772B2 (en) Information processing apparatus and program
JP2006215717A (en) System, method, and program for information retrieval
JP2007156545A (en) Symbol string conversion method, word translation method, its device, its program and recording medium
JP5870744B2 (en) Information processing apparatus and program
JP2020106880A (en) Information processing apparatus, model generation method and program
JP5697648B2 (en) Word division device, data structure of word division dictionary, word division method, and program
JP4900947B2 (en) Abbreviation extraction method, abbreviation extraction apparatus, and program
JP4945015B2 (en) Document search system, document search program, and document search method
US20130110499A1 (en) Information processing device, information processing method and information recording medium
JP6056291B2 (en) Information processing apparatus, data display apparatus, and program
KR102355731B1 (en) Analysis program, analysis method, and analysis device
JP5978645B2 (en) Information processing apparatus, data display apparatus, and program
JP2005202924A (en) Translation determination system, method, and program
JP2014199476A (en) Machine translation device, machine translation method and program
JP6303508B2 (en) Document analysis apparatus, document analysis system, document analysis method, and program
JP3939264B2 (en) Morphological analyzer
JP5182960B2 (en) Store name ambiguity resolving apparatus, method, program, and recording medium

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20150209

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20150825

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20150901

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20151029

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20151215

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20151228

R150 Certificate of patent or registration of utility model

Ref document number: 5870744

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150