JP6056291B2 - Information processing apparatus, data display apparatus, and program - Google Patents

Information processing apparatus, data display apparatus, and program Download PDF

Info

Publication number
JP6056291B2
JP6056291B2 JP2012200010A JP2012200010A JP6056291B2 JP 6056291 B2 JP6056291 B2 JP 6056291B2 JP 2012200010 A JP2012200010 A JP 2012200010A JP 2012200010 A JP2012200010 A JP 2012200010A JP 6056291 B2 JP6056291 B2 JP 6056291B2
Authority
JP
Japan
Prior art keywords
unit
probability
probability coefficient
word
route
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2012200010A
Other languages
Japanese (ja)
Other versions
JP2014056362A (en
Inventor
山口 倫治
倫治 山口
井手 博康
博康 井手
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Casio Computer Co Ltd
Original Assignee
Casio Computer Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Casio Computer Co Ltd filed Critical Casio Computer Co Ltd
Priority to JP2012200010A priority Critical patent/JP6056291B2/en
Publication of JP2014056362A publication Critical patent/JP2014056362A/en
Application granted granted Critical
Publication of JP6056291B2 publication Critical patent/JP6056291B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Description

本発明は、情報処理装置、データ表示装置及びプログラムに関する。   The present invention relates to an information processing device, a data display device, and a program.

複数の単語を含む単語列(原文)を他の言語に翻訳する翻訳装置が知られている。このような翻訳装置は、原文を翻訳するにあたって、原文がどの単語と単語との間(語間)で区切れるか推測して翻訳処理を実行する。   A translation device that translates a word string (original text) including a plurality of words into another language is known. When translating an original sentence, such a translation apparatus performs translation processing by estimating which word (word-to-word) the original sentence is divided.

文書や単語列の区切り方を推測する方法に関連して、特許文献1は予め文書が属する言語の文法規則をプログラミングした構文解析器を用いて文書の区切り方を推測する技術を提案している。また、特許文献2は、分かち書きされていない文字列を単語毎に分割する技術を提案している。   In relation to a method for estimating how to divide a document or a word string, Patent Document 1 proposes a technique for inferring how to divide a document using a parser that has been programmed in advance with the grammar rules of the language to which the document belongs. . Patent Document 2 proposes a technique for dividing a character string that is not divided into words.

特開平6−309310号公報JP-A-6-309310 特開平10−254874号公報JP-A-10-254874

特許文献1の技術では、原文がどの単語と単語との間で区切れるかを推測するために、原文が属する言語の文法規則をプログラミングした構文解析器を用いる。そのため、原文の属する言語毎に構文解析器を多くの開発費用・日数を費やして作成しなくてはならなかった。   In the technique of Patent Document 1, in order to infer which words are separated from each other in the original text, a syntax analyzer that is programmed with the grammar rules of the language to which the original text belongs is used. Therefore, it was necessary to create a parser for each language to which the original text belongs, spending a lot of development costs and days.

また、特許文献2では、分かち書きされていない文字列を単語毎に分割する技術を開示しているが、文字列がどの単語と単語との間で区切れているか判別する方法については開示していない。   Patent Document 2 discloses a technique of dividing a character string that is not divided into words, but discloses a method for determining which word and word are separated from each other. Absent.

文字列を単語に分割し、それぞれの単語の情報を提示するアプリケーションにおいては、解析対象文字列が書かれている言語の構文解析器が必要となる。   In an application that divides a character string into words and presents information on each word, a syntax analyzer for the language in which the character string to be analyzed is written is required.

しかし、構文解析器は解析結果の教師データからのみ学習して構成することは難しく、各言語に対応した構文解析器を設計する必要がある。そこで、構文解析器を用いず、教師データから単語間の接続確率を算出し、その確率を元に文字列の解析を行う。   However, it is difficult to construct a parser by learning only from the teacher data of the analysis result, and it is necessary to design a parser corresponding to each language. Therefore, without using a syntax analyzer, the connection probability between words is calculated from the teacher data, and the character string is analyzed based on the probability.

接続確率の算出には単語nグラムを用いる。しかし、教師データ内には意味的に関係のない単語の連続によるnグラム(例えば、助詞や副詞だけからなるnグラムなど)も含まれているので、そのnグラムによって、解析精度が低下するという問題点もある。   The word n-gram is used to calculate the connection probability. However, since the teacher data includes n-grams (for example, n-grams composed only of particles and adverbs) due to a series of words that are not semantically related, the analysis accuracy is reduced by the n-grams. There are also problems.

本発明は上記事情に鑑みてなされたもので、各言語に対応した構文解析器を用いずに文字列の単語分割を行うことを目的とする。
また、本発明は、文字列を単語に分割する際の解析精度を向上させた情報処理装置、データ表示装置及びプログラムを提供することを他の目的とする。
The present invention has been made in view of the above circumstances, and an object thereof is to perform word division of a character string without using a syntax analyzer corresponding to each language.
Another object of the present invention is to provide an information processing apparatus, a data display apparatus, and a program that improve analysis accuracy when a character string is divided into words.

上記目的を達成するため、本発明に係る情報処理装置は、解析対象となる文字列を単語列に変換し当該単語列に含まれる単語からなる部分列を順に抽出する部分列抽出部と、前記部分列抽出部が抽出した各部分列についてどの語間で当該単語列が区切れるか否かの全てのパターンを生成する区切パターン生成部と、前記区切パターン生成部が生成した各区切パターンについて教師データにおける区切れ方に基づく区切確率係数を取得し、前記部分列に含まれる単語の属性に基づき重み付けをする確率係数取得部と、前記確率係数取得部で取得した区切確率係数と、当該区切確率係数に対応する部分列の区切りパターンに隣接する一つ前の部分列の共通隣接区切パターンのうち区切確率係数が大きい方とを乗算してルート確率係数を算出するルート確率係数算出部と、前記ルート確率係数算出部で算出したルート確率係数が大きい部分列を辿るようにルートを選択するルート選択部と、前記ルート選択部が選択したルートにおける区切パターンで当該単語列を分割する単語列分割部とを備えることを特徴とする。 In order to achieve the above object, an information processing apparatus according to the present invention converts a character string to be analyzed into a word string and sequentially extracts a partial string including words included in the word string; For each partial sequence extracted by the partial sequence extraction unit, a delimiter pattern generation unit that generates all patterns indicating whether or not the word sequence is delimited between words, and a teacher for each delimiter pattern generated by the delimiter pattern generation unit A probability coefficient acquisition unit that acquires a division probability coefficient based on a division method in data and performs weighting based on an attribute of a word included in the partial sequence, a division probability coefficient acquired by the probability coefficient acquisition unit, and the division probability Le for multiplying the person division probability coefficients of common neighboring division pattern of the previous subsequence adjacent to delimiting pattern of subsequence corresponding to large coefficient to calculate the route probability factor And a route selection unit that selects a route so as to follow a partial sequence having a large route probability coefficient calculated by the route probability coefficient calculation unit, and a delimiter pattern in the route selected by the route selection unit. And a word string dividing unit for dividing the string.

本発明によれば、文字列の分割に有効な単語により注目して解析を行うことにより、精度の向上を図ることができる。   According to the present invention, it is possible to improve accuracy by performing analysis while paying attention to words effective for character string division.

(a)は実施形態に係るメニュー表示装置の機能構成を示すブロック図であり、(b)は実施形態に係るメニュー表示装置の物理構成を示すブロック図である。(A) is a block diagram which shows the function structure of the menu display apparatus which concerns on embodiment, (b) is a block diagram which shows the physical structure of the menu display apparatus which concerns on embodiment. (a)は実施形態に係るメニュー表示装置が取得する撮影画像を示す図であり、(b)は実施形態に係るメニュー表示装置が単語列を分割した結果を示す図であり、(c)は実施形態に係るメニュー表示装置が単語に解説を付した表示データを示す図である。(A) is a figure which shows the picked-up image which the menu display apparatus which concerns on embodiment acquires, (b) is a figure which shows the result of having divided the word string by the menu display apparatus which concerns on embodiment, (c) is It is a figure which shows the display data which attached | subjected the comment to the word with the menu display apparatus which concerns on embodiment. (a)は実施形態に係るメニュー表示装置の教師データにおける文字列とタグ付き文字列との関係を示す図であり、(b)は実施形態に係るメニュー表示装置の教師データにおける単語列と区切フラグとnグラム(トライグラム)と区切パターンとの関係を示す図である。(A) is a figure which shows the relationship between the character string in the teacher data of the menu display apparatus which concerns on embodiment, and a character string with a tag, (b) is a word string and division | segmentation in the teacher data of the menu display apparatus which concerns on embodiment. It is a figure which shows the relationship between a flag, n-gram (trigram), and a division | segmentation pattern. 実施形態に係る文字列解析部の機能構成を示すブロック図である。It is a block diagram which shows the function structure of the character string analysis part which concerns on embodiment. 実施形態に係る文字列解析部が実行する処理を説明する図である。It is a figure explaining the process which the character string analysis part which concerns on embodiment performs. (a)は実施形態に係る文字列解析部が実行する補正処理を説明する表を示す図であり、(b)は実施形態に係る文字列解析部が実行する補正処理を説明するグラフを示す図である。(A) is a figure which shows the table | surface explaining the correction process which the character string analysis part which concerns on embodiment performs, (b) shows the graph explaining the correction process which the character string analysis part which concerns on embodiment performs. FIG. 実施形態に係る確率処理部の構成を示すブロック図である。It is a block diagram which shows the structure of the probability process part which concerns on embodiment. 実施形態に係る確率係数リストを示す図である。It is a figure which shows the probability coefficient list | wrist which concerns on embodiment. (a)は実施形態に係る確率係数算出処理におけるバイグラムの確率係数からトライグラムの確率係数を算出する処理の例を示す図であり、(b)は実施形態に係る確率係数算出処理におけるモノグラムの確率係数からトライグラムの確率係数を算出する処理の例を示す図である。(A) is a figure which shows the example of the process which calculates the probability coefficient of a trigram from the probability coefficient of the bigram in the probability coefficient calculation process which concerns on embodiment, (b) is a figure of the monogram in the probability coefficient calculation process which concerns on embodiment. It is a figure which shows the example of the process which calculates the probability coefficient of a trigram from a probability coefficient. 実施形態に係るメニュー表示装置が実行するメニュー表示処理を示すフローチャートである。It is a flowchart which shows the menu display process which the menu display apparatus which concerns on embodiment performs. 実施形態に係るメニュー表示装置が実行するメニュー分割処理を示すフローチャートである。It is a flowchart which shows the menu division | segmentation process which the menu display apparatus which concerns on embodiment performs. 実施形態に係るメニュー表示装置が実行する区切確率係数取得処理を示すフローチャートである。It is a flowchart which shows the division | segmentation probability coefficient acquisition process which the menu display apparatus which concerns on embodiment performs. 実施形態に係るメニュー表示装置が実行する区切確率係数算出処理を示すフローチャートである。It is a flowchart which shows the division | segmentation probability coefficient calculation process which the menu display apparatus which concerns on embodiment performs. 実施形態に係るメニュー表示装置が実行するルート確率係数算出処理を示すフローチャートである。It is a flowchart which shows the route probability coefficient calculation process which the menu display apparatus which concerns on embodiment performs. (a)は実施形態に係る教師データの例を示す図であり、(b)は実施形態に係る教師データ内の単語に品詞を付したときのトライグラムリストを示す図である。(A) is a figure which shows the example of the teacher data which concerns on embodiment, (b) is a figure which shows the trigram list when attaching a part of speech to the word in the teacher data which concerns on embodiment. 実施形態に係る教師データ内の単語に付した品詞に基づき重み付けを行った確率係数リストを示す図である。It is a figure which shows the probability coefficient list | wrist which weighted based on the part of speech attached to the word in the teacher data which concerns on embodiment.

以下、本発明である情報処理装置、データ表示装置及びプログラムを実施するための形態に係るメニュー表示装置を、図を参照して説明する。尚、図中同一又は相当する部分には同一符号を付す。   Hereinafter, an information processing apparatus, a data display apparatus, and a menu display apparatus according to an embodiment for implementing a program will be described with reference to the drawings. In the drawings, the same or corresponding parts are denoted by the same reference numerals.

実施形態に係るメニュー表示装置1は、料理等のメニューを解析対象としているが、本発明は、それ以外のカテゴリ、例えば、住所、薬品の効能書き、説明書等に応用することも可能である。   The menu display device 1 according to the embodiment is intended for analysis of menus such as dishes, but the present invention can also be applied to other categories such as addresses, medicinal effects, instructions, etc. .

メニュー表示装置1は、i)解析対象となる特定のカテゴリに属する文字列(メニュー、献立等)を記載した紙等を撮影する撮影機能、ii)撮影した画像から解析対象となる文字列を認識して抽出する機能、iii)抽出した文字列を解析して単語列に変換する機能、iv)文字列の所定部分(単語間)でメニューが区切れる確率を示す確率係数を出力する機能、v)確率係数に基づいて単語列を区切る機能、vi)区切った単語列をそれぞれ表示データに変換する機能、vii)表示データを表示する機能などを備える。   The menu display device 1 i) a photographing function for photographing paper or the like describing a character string (menu, menu, etc.) belonging to a specific category to be analyzed; ii) recognizing a character string to be analyzed from the photographed image Iii) a function of analyzing the extracted character string and converting it into a word string, iv) a function of outputting a probability coefficient indicating a probability that the menu is divided at a predetermined part (between words) of the character string, v ) A function of dividing a word string based on a probability coefficient, vi) a function of converting the divided word string into display data, vii) a function of displaying display data, and the like.

メニュー表示装置1は、図1(a)に示すように画像入力部10と、OCR20、文字列解析部30、確率処理部40、変換部50、及び用語辞書記憶部60を含む情報処理部70と、表示部80と、操作入力部90とを備える。   As shown in FIG. 1A, the menu display device 1 includes an image input unit 10, an OCR 20, a character string analysis unit 30, a probability processing unit 40, a conversion unit 50, and a term dictionary storage unit 60. And a display unit 80 and an operation input unit 90.

画像入力部10は、カメラ等の画像撮影装置と画像処理部とから構成され、このような物理構成によりメニューを撮影した画像を取得する。画像入力部10は、取得した画像を情報処理部70のOCR20に伝達する。   The image input unit 10 includes an image capturing device such as a camera and an image processing unit, and acquires an image obtained by capturing a menu with such a physical configuration. The image input unit 10 transmits the acquired image to the OCR 20 of the information processing unit 70.

尚、画像以外による入力も可能である。例えば、ユーザがキーボードからメニューの文字列を入力しても良いし、音声によりメニューの文字列を入力しても良い。   Note that it is possible to input other than images. For example, the user may input a menu character string from a keyboard, or may input a menu character string by voice.

情報処理部70は、図1(b)に示すように、コンピュータに相当する機能を有し、物理的には、情報処理部701と、データ記憶部702と、プログラム記憶部703と、入出力部704と、通信部705と、内部バス706とから構成される。   As shown in FIG. 1B, the information processing unit 70 has a function corresponding to a computer. Physically, the information processing unit 701, a data storage unit 702, a program storage unit 703, and an input / output unit A unit 704, a communication unit 705, and an internal bus 706.

情報処理部701は、CPU(Central Processing Unit)、DSP(Digital Signal Processor)等から構成され、プログラム記憶部703に記憶されている制御プログラム707に従って、後述するメニュー表示装置1における処理を実行する。   The information processing unit 701 includes a CPU (Central Processing Unit), a DSP (Digital Signal Processor), and the like, and executes processing in the menu display device 1 described later according to a control program 707 stored in the program storage unit 703.

データ記憶部702は、RAM(Random Access Memory)等から構成され、情報処理部701の作業領域として用いられる。   The data storage unit 702 includes a RAM (Random Access Memory) and the like, and is used as a work area for the information processing unit 701.

プログラム記憶部703は、フラッシュメモリ、ハードディスク等の不揮発性メモリから構成され、情報処理部701の動作を制御する制御プログラム707と、下記に示す処理を実行するためのデータを記憶する。   The program storage unit 703 includes a non-volatile memory such as a flash memory or a hard disk, and stores a control program 707 for controlling the operation of the information processing unit 701 and data for executing the following processing.

入出力部704は、USB(Universal Serial Bus)やシリアルポートによって情報処理部70に接続された画像入力部10、表示部80、操作入力部90、外部装置等との情報の入出力を制御するI/O(Input/Output)インタフェース部である。   The input / output unit 704 controls input / output of information to / from the image input unit 10, the display unit 80, the operation input unit 90, an external device, and the like connected to the information processing unit 70 via a USB (Universal Serial Bus) or a serial port. It is an I / O (Input / Output) interface unit.

通信部705は、LAN(Local Area Network)デバイス、モデム等から構成され、インターネットやLAN等の通信回線を介して接続された外部機器に情報処理部701の処理結果を送信する。また、外部機器から情報を受信して、情報処理部701に伝達する。   The communication unit 705 includes a local area network (LAN) device, a modem, and the like, and transmits the processing result of the information processing unit 701 to an external device connected via a communication line such as the Internet or a LAN. In addition, information is received from an external device and transmitted to the information processing unit 701.

尚、情報処理部701と、データ記憶部702と、プログラム記憶部703と、入出力部704と、通信部705とは、内部バス706によってそれぞれ接続され、情報の送受信が可能である。   Note that the information processing unit 701, the data storage unit 702, the program storage unit 703, the input / output unit 704, and the communication unit 705 are respectively connected by an internal bus 706, and can transmit and receive information.

情報処理部70の処理を行う中心となる部分は、専用のシステムによらず、通常のコンピュータシステムを用いて実現可能である。例えば、処理を実行するためのコンピュータプログラムを、コンピュータが読み取り可能な記録媒体に格納して配布し、当該コンピュータプログラムをコンピュータにインストールすることにより実現してもよい。尚、記録媒体としては、フレキシブルディスク、CD−ROM(Compact Disc Read Only Memory)、DVD−ROM(Digital Versatile Disc Read Only Memory)等がある。   The central part for performing the processing of the information processing unit 70 can be realized by using a normal computer system without depending on a dedicated system. For example, a computer program for executing processing may be stored in a computer-readable recording medium and distributed, and the computer program may be installed in the computer. The recording medium includes a flexible disk, a CD-ROM (Compact Disc Read Only Memory), a DVD-ROM (Digital Versatile Disc Read Only Memory), and the like.

また、インターネット等の通信ネットワーク上のサーバ装置が有する記憶装置に当該コンピュータプログラムを格納しておき、通常のコンピュータシステムがダウンロード等することにより実現してもよい。   Alternatively, the computer program may be stored in a storage device included in a server device on a communication network such as the Internet and downloaded by a normal computer system.

また、機能をOS(Operating System)とアプリケーションプログラムの分担、またはOSとアプリケーションプログラムとの協働により実現する場合などには、アプリケーションプログラム部分のみを記録媒体や記憶装置に格納し、OSの制御下で処理を実行してもよい。   Further, when the function is realized by sharing of an OS (Operating System) and an application program, or by cooperation between the OS and the application program, only the application program part is stored in a recording medium or a storage device, and is controlled by the OS. The process may be executed by

また、搬送波にコンピュータプログラムを重畳し、通信ネットワークを介して配信することも可能である。例えば、通信ネットワーク上の掲示板(BBS:Bulletin Board System)にコンピュータプログラムを掲示し、ネットワークを介して配信してもよい。   It is also possible to superimpose a computer program on a carrier wave and distribute it via a communication network. For example, a computer program may be posted on a bulletin board (BBS: Bulletin Board System) on a communication network and distributed via the network.

また、メニュー表示装置1が実行する処理の一部を、メニュー表示装置1とは独立したコンピュータを用いて実現しても良い。   Further, part of the processing executed by the menu display device 1 may be realized using a computer independent of the menu display device 1.

情報処理部70は、上記物理構成により、OCR20、文字列解析部30、確率処理部40、変換部50、用語辞書記憶部60として機能する。   The information processing unit 70 functions as the OCR 20, the character string analysis unit 30, the probability processing unit 40, the conversion unit 50, and the term dictionary storage unit 60 with the above physical configuration.

OCR20は、光学文字読取装置(Optical Character Reader)であり、画像入力部10から伝達された画像の文字を認識し、メニューに記された文字列(料理名等)を取得する。OCR20は、取得した文字列を文字列解析部30に伝達する。   The OCR 20 is an optical character reader that recognizes characters in an image transmitted from the image input unit 10 and acquires a character string (such as a dish name) written in a menu. The OCR 20 transmits the acquired character string to the character string analysis unit 30.

尚、画像以外の入力手段を用いた場合は、それに合わせて文字を認識する手段を備える。例えば、音声入力の場合は、音声認識装置により文字列を取得する。   When an input means other than an image is used, a means for recognizing characters is provided accordingly. For example, in the case of voice input, a character string is acquired by a voice recognition device.

文字列解析部30は、OCR20から伝達された文字列を単語列Wに変換する。単語列Wとは、文字列を単語に分割したものである。例えば、文字列「豚バラ肉の赤ワイン煮」を単語列Wに変換すると、「豚,バラ肉,の,赤ワイン,煮」となる。   The character string analysis unit 30 converts the character string transmitted from the OCR 20 into a word string W. The word string W is a character string divided into words. For example, when the character string “boiled pork belly in red wine” is converted into the word string W, “pork, rose meat, red wine, boiled” is obtained.

文字列解析部30は、単語列Wを構成する単語からなる部分列(単語nグラム)を抽出する。尚、nは抽出する単語の数を表す。単語列Wにおける単語と単語の間である語間で区切れるかどうかを判断するために、nグラムの手法を用いる。   The character string analysis unit 30 extracts a partial sequence (word n-gram) composed of words constituting the word sequence W. Note that n represents the number of words to be extracted. In order to determine whether or not a word is separated between words in the word string W, an n-gram technique is used.

文字列解析部30は、抽出した単語nグラムについて区切パターンを定義し、確率処理部40に伝達する。尚、区切パターンには、単語nグラムと、その語間で単語列Wが区切れる場合と区切れない場合に対応する情報を含む。   The character string analysis unit 30 defines a delimiter pattern for the extracted word n-gram and transmits it to the probability processing unit 40. Note that the delimiter pattern includes a word n-gram and information corresponding to the case where the word string W is delimited and not delimited between the words.

文字列解析部30は、確率処理部40が出力する区切確率係数を受け取る。区切確率係数は、単語nグラムを含む教師データがその区切パターンで区切れる確からしさを示す係数を示す。単語nグラムと区切パターンと区切確率係数とについては後述する。   The character string analysis unit 30 receives the break probability coefficient output by the probability processing unit 40. The delimitation probability coefficient indicates a coefficient indicating the probability that teacher data including the word n-gram will be delimited by the delimiter pattern. The word n-gram, the division pattern, and the division probability coefficient will be described later.

文字列解析部30は、確率処理部40から受け取った区切確率係数を用いて単語列Wを分割し、部分文字列を変換部50に出力する。文字列解析部30が実行する具体的な処理については後述する。   The character string analysis unit 30 divides the word string W using the delimitation probability coefficient received from the probability processing unit 40 and outputs the partial character string to the conversion unit 50. Specific processing executed by the character string analysis unit 30 will be described later.

確率処理部40は、文字列解析部30から、単語nグラムとその区切り方を示す区切フラグを含む区切パターンを伝達される。確率処理部40は、教師データがその区切パターンで区切れる確からしさを示す情報を記憶している。   The probability processing unit 40 receives a delimiter pattern including a delimiter flag indicating a word n-gram and its delimiter from the character string analyzing unit 30. The probability processing unit 40 stores information indicating the probability that the teacher data is partitioned by the partition pattern.

確率処理部40は、文字列解析部30から区切パターンを伝達されると、記憶する確率係数リストを参照して区切確率係数を取得し、文字列解析部30に伝達する。確率処理部40の機能構成と実行する具体的な処理については後述する。   When the delimiter pattern is transmitted from the character string analysis unit 30, the probability processing unit 40 refers to the stored probability coefficient list, acquires the delimitation probability coefficient, and transmits it to the character string analysis unit 30. The functional configuration of the probability processing unit 40 and the specific processing to be executed will be described later.

変換部50は、用語辞書記憶部60を参照し、文字列解析部30から伝達された分割された部分文字列を、その部分ごとに表示用データに変換する。   The conversion unit 50 refers to the term dictionary storage unit 60 and converts the divided partial character string transmitted from the character string analysis unit 30 into display data for each portion.

具体的には、変換部50は、部分文字列に含まれる単語を、用語辞書記憶部60に伝達し、用語辞書記憶部60からその単語の解説データを取得する。変換部50は、その部分ごとに、原文であるメニューの単語と、その単語の解説データを並べて、表示データを生成する。変換部50は、生成した表示データを表示部80に伝達する。   Specifically, the conversion unit 50 transmits a word included in the partial character string to the term dictionary storage unit 60 and acquires comment data of the word from the term dictionary storage unit 60. The conversion unit 50 generates display data by arranging the word of the menu that is the original sentence and the explanation data of the word for each part. The conversion unit 50 transmits the generated display data to the display unit 80.

尚、解説データは、単語の意味だけに限られず、単語を別の言語に翻訳したものなど、用途に応じて様々な内容を用意することができる。   Note that the explanation data is not limited to the meaning of the word, and various contents can be prepared depending on the application, such as a translation of the word into another language.

用語辞書記憶部60は、教師データに含まれる単語等と、それらの解説のためのデータとを対応付けて登録した用語辞書を記憶する。   The term dictionary storage unit 60 stores a term dictionary in which words and the like included in teacher data are registered in association with data for explaining them.

用語辞書記憶部60は、変換部50から単語等を送信されると、記憶する用語辞書においてその単語等と対応付けられている解説データを変換部50に伝達する。また、その単語等が用語辞書になかった場合には、その旨を示すemptyデータを送信する。   When a word or the like is transmitted from the conversion unit 50, the term dictionary storage unit 60 transmits comment data associated with the word or the like in the stored term dictionary to the conversion unit 50. If the word or the like is not in the term dictionary, empty data indicating that is transmitted.

表示部80は、液晶ディスプレイ等から構成され、変換部50から伝達された情報を表示する。その他、プリンタなど出力結果を反映する手段を含むものとする。   The display unit 80 is composed of a liquid crystal display or the like, and displays information transmitted from the conversion unit 50. In addition, a means for reflecting the output result such as a printer is included.

操作入力部90は、タッチパネル、キーボード、ボタン、ポインティングデバイス等の、ユーザの操作を受付ける操作受付装置と、操作受付装置が受け付けた操作の情報を情報処理部70に伝達する伝達部とから構成される。操作入力部90はこのような物理構成によりユーザの操作を受け付けて、その情報を情報処理部70に伝達する。   The operation input unit 90 includes an operation reception device that accepts user operations, such as a touch panel, a keyboard, a button, and a pointing device, and a transmission unit that transmits information on operations received by the operation reception device to the information processing unit 70. The The operation input unit 90 receives a user operation with such a physical configuration and transmits the information to the information processing unit 70.

ここで、メニュー表示装置1がメニューを撮影した画像と、メニューを分割した部分文字列と、部分文字列を変換した表示用データとの関係を、図2を参照して説明する。   Here, the relationship between the image obtained by photographing the menu by the menu display device 1, the partial character string obtained by dividing the menu, and the display data obtained by converting the partial character string will be described with reference to FIG.

メニュー表示装置1は、ユーザが画像入力部10を用いてレストランのメニュー等を撮影すると、図2(a)に示すような画像I1を取得する。   When the user uses the image input unit 10 to photograph a restaurant menu or the like, the menu display device 1 acquires an image I1 as shown in FIG.

画像I1からOCR20がメニューの文字列を抽出し、文字列解析部30が文字列を単語単位に分けた上で区切れる語間において分割して、図2(b)に示すような部分文字列を変換部50に伝達する。   The character string of the menu is extracted from the image I1 by the OCR 20, and the character string analyzing unit 30 divides the character string into words and then divides them into words to be divided into partial character strings as shown in FIG. Is transmitted to the conversion unit 50.

図2(c)に示すように、変換部50が、部分文字列ごとに、原文であるメニューに含まれる単語について、その意味を解説文として付けた表示データに変換して表示する。   As shown in FIG. 2 (c), the conversion unit 50 converts the word included in the menu, which is the original sentence, into display data with the meaning added as an explanatory sentence for each partial character string and displays it.

ここで、本実施形態に係る解析対象となる文字列と、教師データであるタグ付文字列と、単語nグラムと、区切フラグと、区切パターンとについて、図3を参照して説明する。   Here, a character string to be analyzed according to the present embodiment, a tagged character string as teacher data, a word n-gram, a delimiter flag, and a delimiter pattern will be described with reference to FIG.

本実施形態で解析対象となる文字列は、図3(a)の上に示されるようなメニュー等を示す文字列である。ここでは、文字列を「豚バラ肉の赤ワイン煮温野菜添え」とする。   The character string to be analyzed in the present embodiment is a character string indicating a menu or the like as shown in FIG. Here, the character string is “pig rose meat boiled in red wine with warm vegetables”.

また、教師データは、図3(a)の下に示すように、単語又は結び付きの強い固まり毎にタグで挟んだタグ付文字列である。教師データは、データ記憶部702に予め大量に作成しておき、文字列を解析する度にそれを蓄積して学習を行う。   In addition, the teacher data is a tagged character string sandwiched between tags for each word or a strongly connected group, as shown in the lower part of FIG. A large amount of teacher data is created in advance in the data storage unit 702, and each time a character string is analyzed, it is accumulated and learned.

タグ付文字列の最小単位は単語であるため、文字列を単語単位にした上で、固まりの始めに<m>、<c>、<s>、<w>等のタグを付し、固まりの終わりに</m>、</c>、</s>、</w>等のタグを付す。   Since the minimum unit of a tagged character string is a word, after making the character string into a word unit, add tags such as <m>, <c>, <s>, <w> at the beginning of the chunk, and </ M>, </ c>, </ s>, </ w>, etc.

図3(a)の例では、タグ付文字列は「<m><c><s><w>豚</w><w>バラ肉</w><w>の</w></s><s><w>赤ワイン</w><w>煮</w></s></c><s><w>温野菜</w><w>添え</w></s></m>」である。   In the example of Fig. 3 (a), the tagged string is "<m> <c> <s> <w> pig </ w> <w> rose </ w> <w> </ w> < / s> <s> <w> red wine </ w> <w> boiled </ w> </ s> </ c> <s> <w> warm vegetables </ w> <w> with </ w> </ s> </ m> ".

このタグ付文字列では、単語を示すタグ<w></w>によって、「豚」、「バラ肉」、「の」、「赤ワイン」、「煮」、「温野菜」、「添え」の七つの単語に分けられる。さらに、材料名や料理方法などの固まりを示すタグ<s></s>により、「豚バラ肉の」、「赤ワイン煮」、「温野菜添え」という三つにまとめられる。   In this tagged string, the words <w> </ w> indicate the words "pork", "rose meat", "no", "red wine", "boiled", "warm vegetables", Divided into seven words. In addition, tags <s> </ s> indicating the mass of ingredients, cooking methods, etc., can be grouped into three categories: “pig rose meat”, “boiled in red wine”, and “with warm vegetables”.

また、料理名などの固まりを示すタグ<c><c/>により、「豚バラ肉の赤ワイン煮」がまとめられ、「温野菜添え」と区別される。即ち、料理名に「プロバンス風」や「特選」等その他の修飾語を含む場合に分けられる。さらに、献立を示すタグ<m></m>により、文字列が一つのメニューごとに区切られる。   In addition, the tags <c> <c /> indicating the lump of the dish name and the like are used to collect “boiled pork belly in red wine” and are distinguished from “with warm vegetables”. That is, it is divided into cases where the cooking name includes other modifiers such as “Provence style” and “Specialties”. Furthermore, a character string is divided for each menu by tags <m> </ m> indicating menus.

ここで、タグ付文字列は、固まりをタグ<w>、<s>、<c>、<m>で指定しているが、定義する形式はこれに限られない。例えば、所定のカテゴリに含まれる文字列を、単語単位に区切るユニークなマーク(半角スペース等でも可)と、さらに単語以外の少なくとも一つの区切り方で区切るユニークなマークとを含む任意の文字列によって区切り方を定めても良い。   Here, in the tagged character string, chunks are specified by tags <w>, <s>, <c>, <m>, but the definition format is not limited to this. For example, an arbitrary character string that includes a unique mark (a single-byte space or the like) that divides a character string included in a predetermined category into words, and a unique mark that is separated by at least one separation method other than words You may decide how to delimit.

尚、タグ付文字列は、予め特定の言語(ここでは日本語)の特定のカテゴリ(ここでは献立や料理名)に属する文字列を収集して、人手でタグ付けされたデータである。タグ付文字列をタグ付けする方法は人手に限らず、構文解析器等の既知の任意のタグ付け方法であっても良い。   The tagged character string is data that is manually tagged by collecting character strings belonging to a specific category (here, menu or dish name) of a specific language (here, Japanese). The method of tagging the tagged character string is not limited to manual operation, and any known tagging method such as a syntax analyzer may be used.

次に、単語列と、単語nグラムと、区切フラグと、区切りパターンとの関係を図3(b)に示す。単語列Wから、n個の単語を含む部分列を抽出したものがnグラム列である。   Next, FIG. 3B shows the relationship among the word string, word n-gram, delimiter flag, and delimiter pattern. An n-gram sequence is obtained by extracting a partial sequence including n words from the word sequence W.

例えば、単語の数が七つの場合、(1番目の単語,2番目の単語,…,n番目の単語)、(2番目の単語,3番目の単語,…,n+1番目の単語)、…、(8−n番目の単語,…,6番目の単語,7番目の単語)であり、単語数−n+1個の部分列を抽出可能である。   For example, if the number of words is seven, (first word, second word,..., Nth word), (second word, third word,..., N + 1th word),. (8−nth word,..., 6th word, 7th word), and a substring of the number of words−n + 1 can be extracted.

nグラム列を構成するのは、単語nグラムであり、単語列Wの先頭から順に単語を選択し、選択された単語から順にn個の単語が含まれるように抽出する。尚、n=3の単語nグラムをトライグラム、n=2の単語nグラムをバイグラム、n=1の単語nグラムをモノグラム(ユニグラム)と呼ぶ。   An n-gram sequence is a word n-gram, in which words are selected in order from the top of the word sequence W, and extracted from the selected words so that n words are included in order. The word n-gram of n = 3 is called a trigram, the word n-gram of n = 2 is called a bigram, and the word n-gram of n = 1 is called a monogram (unigram).

図3(b)に示すように、「豚バラ肉の赤ワイン煮温野菜添え」から、トライグラム「豚,バラ肉,の」、「バラ肉,の,赤ワイン」、…、「煮,温野菜,添え」から構成されるトライグラム列を得ることができる。   As shown in FIG. 3 (b), from "Pig roses with warm wine cooked in red wine", Trigrams "Pig, rose meat, no", "Rose meat, red wine", ..., "Boiled, warm vegetables , Append ”can be obtained.

メニューの単語列Wは、図3(b)上に示すように、タグ構造によってツリー状に表現できる。ツリーの所定の高さに区切りラインを引くことで、どの単語間で区切れるか、その区切り方を定めることができる。尚、これは、タグ付文字列のどのタグで分けるかに対応する。   The word string W of the menu can be expressed in a tree shape by a tag structure as shown in FIG. By drawing a delimiter line at a predetermined height of the tree, it is possible to determine which word is delimited and how to delimit. This corresponds to which tag of the tagged character string is divided.

図3(b)上のツリーの例では、区切ラインより下では単語がまとめられ、タグ<m>又は</m>がある部位、タグ<c>又は</c>がある部位、タグ<s>又は</s>がある部位でメニューが区切れる。単語列Wの語間のそれぞれで、区切る場合に1、区切らない場合に0で示した情報を区切フラグと呼ぶ。   In the example of the tree in FIG. 3B, the words are grouped below the dividing line, the part having the tag <m> or </ m>, the part having the tag <c> or </ c>, the tag < The menu is separated at the part where s> or </ s> is present. For each word in the word string W, information indicated by 1 when delimited and 0 when not delimited is called a delimiter flag.

尚、どのタグがある部分で区切ると判断するかの判断基準は、自由に設定可能である。例えば、<s></s>タグがある部分のみで区切ると判断して区切フラグを配置するなど任意の設定が可能である。   It should be noted that the criteria for determining which tag is to be delimited by a certain part can be freely set. For example, it is possible to make an arbitrary setting such as determining that a <s> </ s> tag is to be separated only by a portion and placing a separation flag.

単語nグラムについて、各語間で単語列Wを区切るか否かを、単語と区切フラグを並べて定義したパターンを区切パターンという。   For a word n-gram, a pattern that defines whether or not the word string W is separated between each word is defined by arranging a word and a separation flag side by side.

例えば、トライグラムを構成する3つの単語(単語A、単語B、単語C)について、単語Aの前及び単語Cの後ろを含むいずれの語間でも区切れていない場合に対応する区切パターンは「0A0B0C0」、全ての語間で区切れている場合に対応する区切パターンは「1A1B1C1」である。   For example, for the three words (word A, word B, and word C) that make up the trigram, the delimiter pattern corresponding to the case where the trigram is not delimited between any words including the front of word A and the back of word C is “ “0A0B0C0”, the delimiter pattern corresponding to the delimiter between all words is “1A1B1C1”.

ある単語nグラムで構成されている教師データ全体(M個)のうち、ある区切パターンで区切れている教師データの数がm個の場合に、m/Mにより算出される係数を区切確率係数として定義する。区切確率係数は、教師データにおいて、その区切パターンで区切れている確からしさを示す。   When the number of teacher data divided by a certain delimiter pattern is m among all the teacher data (M items) composed of a word n-gram, the coefficient calculated by m / M is a delimiter probability coefficient Define as The delimitation probability coefficient indicates the probability of being delimited by the delimiter pattern in the teacher data.

教師データとなるタグ付文字列を十分な数だけ偏り無く用意すれば、区切確率係数は、メニューに単語nグラムを含む場合にその区切パターンに対応する区切り方で区切れている確からしさを示す指標となる。   If a sufficient number of tagged character strings to be used as teacher data are prepared without bias, the delimitation probability coefficient indicates the probability of being delimited by the delimiter corresponding to the delimiter pattern when the menu includes word n-grams. It becomes an indicator.

尚、単語列Wの先頭に先頭であることを示す記号(SOS:Start of sentence)を、また、末尾に末尾であることを示す記号(EOS:End of sentence)を、それぞれダミー単語として配置しても良い。   In addition, a symbol (SOS: Start of sentence) indicating the beginning and a symbol (EOS: End of sentence) indicating the end are arranged as dummy words at the beginning of the word string W, respectively. May be.

次に、文字列解析部30の機能構成について、図4を参照して説明する。文字列解析部30は、図4に示すように、文字列取得部310、分かち書き部320、nグラム列生成部(部分列抽出部)330、nグラム選択部340、区切パターン生成部350、ルート確率係数定義部360、ルート選択部370、単語列分割部380、及び出力部390から構成される。   Next, the functional configuration of the character string analysis unit 30 will be described with reference to FIG. As shown in FIG. 4, the character string analysis unit 30 includes a character string acquisition unit 310, a segmentation unit 320, an n-gram sequence generation unit (partial sequence extraction unit) 330, an n-gram selection unit 340, a delimiter pattern generation unit 350, a route A probability coefficient defining unit 360, a route selecting unit 370, a word string dividing unit 380, and an output unit 390 are included.

文字列取得部310は、OCR20が抽出した解析対象の文字列を受け取り、分かち書き部320に伝達する。   The character string acquisition unit 310 receives the character string to be analyzed extracted by the OCR 20 and transmits it to the segmentation unit 320.

分かち書き部320は、文字列取得部310が取得した文字列を単語単位に分ける分かち書き処理を実行する。分かち書き処理は、文字列から単語を抽出する任意の方法を用いることができるが、ここでは特許文献2が例示する方法を用いることとする。   The segmentation unit 320 executes segmentation processing that divides the character string acquired by the character string acquisition unit 310 into words. For the separation processing, any method for extracting a word from a character string can be used. Here, the method exemplified in Patent Document 2 is used.

尚、解析対象となるメニューが英語やフランス語等の単語毎にスペースで区切られる言語であった場合、分かち書き処理は、スペースによって単語を区切ることにより行う。   If the menu to be analyzed is a language such as English or French that is separated by a space for each word, the dividing process is performed by dividing the word by a space.

分かち書き部320は、分かち書き処理によりメニューの文字列を単語列Wに変換してnグラム列生成部330へ伝達する。   The segmentation unit 320 converts the character string of the menu into a word string W by the segmentation process and transmits it to the n-gram sequence generation unit 330.

nグラム列生成部330は、分かち書き部320からメニューの単語列Wを伝達されると、単語列Wから単語nグラムを抽出し、その集合であるnグラム列をnグラム選択部340に伝達する。   When the word string W of the menu is transmitted from the segmentation unit 320, the n-gram string generation unit 330 extracts the word n-gram from the word string W and transmits the n-gram string that is the set to the n-gram selection unit 340. .

単語nグラムは、単語列Wの先頭から順に単語を選択し、選択された単語から順にn個の単語が含まれるように部分列を抽出する。nグラム列は、同数の単語からなる部分列で構成される。   The word n-gram selects words in order from the top of the word string W, and extracts a partial string so that n words are included in order from the selected word. The n-gram sequence is composed of partial sequences consisting of the same number of words.

nグラム選択部340は、生成したnグラム列の単語nグラムを先頭(又は最後尾)から最後尾(又は先頭)に向かって、順次、注目nグラムとして選択し、選択した注目nグラムを区切パターン生成部350に伝達する。   The n-gram selection unit 340 sequentially selects the word n-gram of the generated n-gram sequence from the head (or the tail) to the tail (or the head) as the attention n-gram, and delimits the selected attention n-gram. This is transmitted to the pattern generation unit 350.

区切パターン生成部350は、注目nグラムを伝達されると、注目nグラムについて定義できる区切パターンを生成する。尚、区切パターンは、全部で2^(n+1)通りであり、バイグラムの場合は一つ当たり八通りとなる。   When the notice n-gram is transmitted, the delimiter pattern generation unit 350 generates a delimiter pattern that can be defined for the notice n-gram. There are 2 ^ (n + 1) division patterns in total, and there are 8 division patterns in the case of bigrams.

区切パターン生成部350は、生成した区切パターンをルート確率係数定義部360に伝達する。尚、ある単語nグラムから生成される区切パターンをその単語nグラムの対応区切パターンと呼ぶ。   The delimiter pattern generation unit 350 transmits the generated delimiter pattern to the route probability coefficient definition unit 360. A delimiter pattern generated from a word n-gram is called a corresponding delimiter pattern of the word n-gram.

ルート確率係数定義部360は、伝達された注目nグラムの対応区切パターンを確率処理部40に伝達して、確率処理部40から対応区切パターンの区切確率係数を受け取る。受け取った区切確率係数から後述するルート確率係数を算出する。   The route probability coefficient definition unit 360 transmits the transmitted corresponding partition pattern of the target n-gram to the probability processing unit 40 and receives the partition probability coefficient of the corresponding partition pattern from the probability processing unit 40. A route probability coefficient described later is calculated from the received break probability coefficient.

ルート確率係数定義部360は、このような機能を実現するために、確率係数取得部3610と、補正部3630と、ルート確率係数算出部3640とを含む。   The route probability coefficient definition unit 360 includes a probability coefficient acquisition unit 3610, a correction unit 3630, and a route probability coefficient calculation unit 3640 in order to realize such a function.

確率係数取得部3610は、区切パターン生成部350が生成した全ての区切パターンを確率処理部40に伝達して、教師データにおける区切れ方の統計に基づく各区切パターンの区切確率係数を全て取得する。尚、取得した区切確率係数を調整する必要があれば補正部3630で補正処理を行う。   The probability coefficient acquisition unit 3610 transmits all the division patterns generated by the division pattern generation unit 350 to the probability processing unit 40, and acquires all the division probability coefficients of each division pattern based on the division method statistics in the teacher data. . If it is necessary to adjust the obtained break probability coefficient, the correction unit 3630 performs correction processing.

補正部3630は、ルート確率係数を算出するにあたり、各区切パターンにおける区切確率係数の値を何らかの基準に基づき調整する。基準としては、単語nグラムの内容、区切フラグの状態、区切確率係数の大きさなどがあり、調整方法としては、区切確率係数を二乗する、又は平方根を取るなどがある。補正部3630が実行する補正処理については後述する。   In calculating the route probability coefficient, the correction unit 3630 adjusts the value of the partition probability coefficient in each partition pattern based on some criterion. The reference includes the contents of the word n-gram, the state of the break flag, the size of the break probability coefficient, and the adjustment method includes squaring the break probability coefficient or taking the square root. The correction process executed by the correction unit 3630 will be described later.

ルート確率係数算出部3640は、各区切パターンのルート確率係数を算出すると、各区切パターンと、算出したルート確率係数とを対応づけてルート選択部370に伝達する。   When the route probability coefficient calculation unit 3640 calculates the route probability coefficient of each partition pattern, the route probability coefficient calculation unit 3640 associates each partition pattern with the calculated route probability coefficient and transmits the result to the route selection unit 370.

ルート選択部370は、ルート確率係数定義部360から伝達された各区切パターンとそのルート確率係数とから最尤ルートを求め、区切パターン生成部350が生成した区切パターンから最尤ルートに現れる区切パターンを選択する。ルート選択部370は、選択した区切パターンを単語列分割部380に伝達する。尚、最尤ルートについては後述する。   The route selection unit 370 obtains the maximum likelihood route from each division pattern transmitted from the route probability coefficient definition unit 360 and its route probability coefficient, and the division pattern that appears in the maximum likelihood route from the division pattern generated by the division pattern generation unit 350 Select. The route selection unit 370 transmits the selected division pattern to the word string division unit 380. The maximum likelihood route will be described later.

単語列分割部380は、ルート選択部370から伝達された区切パターンの区切り方によって、単語列Wを分割して部分文字列にし、部分文字列を出力部390に伝達する。   The word string dividing unit 380 divides the word string W into partial character strings according to the dividing pattern transmitted from the route selecting unit 370, and transmits the partial character strings to the output unit 390.

出力部390は、伝達された部分文字列を変換部50に出力する。   The output unit 390 outputs the transmitted partial character string to the conversion unit 50.

ここで、ルート確率係数定義部360が定義するルート確率係数について、図5を参照して説明する。単語列Wから抽出された単語nグラムを、先頭からnグラム1、nグラム2、・・・と標記する。以下、n=2のバイグラムとして説明する。   Here, the route probability coefficient defined by the route probability coefficient defining unit 360 will be described with reference to FIG. The word n-gram extracted from the word string W is denoted as n-gram 1, n-gram 2,. Hereinafter, the bigram will be described as n = 2.

単語列Wが「豚,バラ肉,の,赤ワイン,煮,温野菜,添え」からバイグラムを抽出すると、nグラム1は「豚,バラ肉」、nグラム2は「バラ肉,の」、nグラム3は「の,赤ワイン」,nグラム4は「赤ワイン,煮」、nグラム5は「煮,温野菜」、nグラム6は「温野菜,添え」となる。   When the word string W extracts bigram from “pork, rose meat, red wine, boiled, warm vegetables, with sauce”, n-gram 1 is “pork, rose meat”, n-gram 2 is “rose meat,” n Gram 3 is “no, red wine”, n-gram 4 is “red wine, boiled”, n-gram 5 is “boiled, warm vegetable”, and n-gram 6 is “warm vegetable, served”.

nグラム1とnグラム2とは、互いに隣接する単語nグラムなので、隣接nグラム(隣接部分列)と呼ぶ。尚、図5の1列目に示すように、nグラム1の対応区切パターンとして、八つのパターンが定義できる。   Since n-gram 1 and n-gram 2 are adjacent word n-grams, they are called adjacent n-grams (adjacent subsequences). As shown in the first column of FIG. 5, eight patterns can be defined as the corresponding division patterns of n-gram 1.

nグラム1の対応区切パターンのそれぞれについて、確率係数取得部3610が取得した区切確率係数をpa1y(八つのパターンのためy=1〜8)とする。pa11〜pa18を補正部3630が補正し、補正後の区切確率係数を用いてルート確率係数を算出する。尚、補正後の区切確率係数をp1y(y=1〜8)とする。 For each corresponding partition pattern of n-gram 1, the partition probability coefficient acquired by the probability coefficient acquisition unit 3610 is pa 1y (y = 1 to 8 for eight patterns). The correction unit 3630 corrects pa 11 to pa 18 and calculates a route probability coefficient using the corrected segment probability coefficient. In addition, let the division | segmentation probability coefficient after correction | amendment be p1y (y = 1-8).

次に、図5の2列目に示すように、nグラム2の対応区切パターンについても八つ定義できる。同様に、nグラム2の区切確率係数をpa2y(y=1〜8)、補正後の区切確率係数をp2y(y=1〜8)とする。 Next, as shown in the second column of FIG. 5, eight corresponding division patterns of n-gram 2 can be defined. Similarly, the partition probability coefficient of n-gram 2 is pa 2y (y = 1 to 8), and the corrected partition probability coefficient is p 2y (y = 1 to 8).

nグラム2の対応区切パターンと、nグラム1の対応区切パターンとにおいて、対応する語間の区切フラグが共通の区切パターンを共通隣接区切パターンとし、それに注目する。   In the corresponding partition pattern of n-gram 2 and the corresponding partition pattern of n-gram 1, a partition pattern having a common partition flag between corresponding words is set as a common adjacent partition pattern, and attention is paid thereto.

即ち、nグラム1とnグラム2とは、部分列としては一単語ずれていることから、nグラム1の2番目の単語から最後の単語までと、nグラム2の最初の単語から最後の一つ前の単語までとが同一なので、その箇所に対応する語間の区切フラグが共通のものが対象となる。   That is, since n-gram 1 and n-gram 2 are shifted by one word as a partial sequence, from the second word to the last word of n-gram 1 and from the first word of n-gram 2 to the last one. Since the word up to the previous word is the same, the one having the same delimiter flag between words corresponding to the part is targeted.

例えば、nグラム1とnグラム2とは「バラ肉」が重複するので、nグラム1の対応区切パターン「1豚0バラ肉0」の共通隣接区切パターンは、nグラム2の対応区切パターンのうち「0バラ肉0」を有する「0バラ肉0の0」と「0バラ肉0の1」とである。   For example, since n-gram 1 and n-gram 2 have “rose meat” overlapping, the common adjacent delimiter pattern of n-gram 1 corresponding delimiter pattern “1 pig 0 rose meat 0” is the n-gram 2 corresponding delimiter pattern. Of these, “0 rose meat 0 0” and “0 rose meat 0 0” having “0 rose meat 0”.

また、nグラム3のある対応区切パターンの共通隣接区切パターンとして、nグラム2の対応区切パターンのうち対応する語間の区切フラグが共通の2つが挙げられる。   Further, as the common adjacent delimiter pattern of the corresponding delimiter pattern of n-gram 3, two common delimiter flags between corresponding words among the corresponding delimiter patterns of n-gram 2 can be cited.

例えば、nグラム3の対応区切パターンの「0の0赤ワイン0」の共通隣接区切パターンは、nグラム2の対応区切パターンのうち「0の0」を有する「0バラ肉0の0」と「1バラ肉0の0」である。   For example, the common adjacent delimiter pattern of “0 0 red wine 0” of the corresponding delimiter pattern of n-gram 3 is “0 0 of meat 0” having “0 of 0” among the corresponding delimiter patterns of n-gram 2. 1 rose meat 0 ”.

ルート確率係数は、nグラムxの対応区切パターンのうちy番目の区切確率係数に、nグラム(x−1)の共通隣接区切パターンのうち、区切確率係数が大きい方の影響を加味する。尚、区切確率係数は補正後のものとし、ルート確率係数の算出後はルート確率係数を用いる。また、nグラム1においては,補正後の区切確率係数をルート確率係数とする。   The route probability coefficient takes into account the influence of the larger delimitation probability coefficient among the common adjacent delimitation patterns of n-gram (x−1) to the y-th delimitation probability coefficient of the corresponding delimitation patterns of n-gram x. Note that the segmentation probability coefficient is a corrected one, and the root probability coefficient is used after the calculation of the root probability coefficient. In n-gram 1, the segmentation probability coefficient after correction is set as the root probability coefficient.

nグラム2の対応区切パターン(y番目)のルート確率係数pp2yについては、その補正後の区切確率係数p2yと、nグラム1の共通隣接区切パターンのうち、補正後の区切確率係数が大きい方の共通隣接区切パターンの補正後の区切確率係数との積とする。 For the root probability coefficient pp 2y of the corresponding partition pattern (y-th) of n-gram 2, the corrected partition probability coefficient p 2y and the corrected partition probability coefficient of the common adjacent partition patterns of n-gram 1 are large. It is the product of the delimiter probability coefficient after correction of the common adjacent delimiter pattern.

nグラム3の対応区切パターンのルート確率係数についても、その補正後の区切確率係数と、nグラム2の共通隣接区切パターンのうち、ルート確率係数が大きい方の共通隣接区切パターンのルート確率係数との積とする。このとき、nグラム2で選択された方が対応隣接区切パターンであり、図5の実線の矢印で示す。   Regarding the root probability coefficient of the corresponding partition pattern of n-gram 3, the corrected partition probability coefficient and the root probability coefficient of the common adjacent partition pattern having the larger root probability coefficient among the common adjacent partition patterns of n-gram 2 The product of At this time, the one selected in the n-gram 2 is the corresponding adjacent delimiter pattern, which is indicated by the solid line arrow in FIG.

このように、図5に示すような隣接nグラムの区切パターンについて、それぞれ共通隣接区切パターン同士を対応付けたテーブルを用いて、ルート確率係数を計算していく。このテーブルをルート確率テーブルと呼ぶ。   As described above, the route probability coefficient is calculated using the table in which the common adjacent delimiter patterns are associated with each other for the delimiter patterns of adjacent n-grams as shown in FIG. This table is called a route probability table.

nグラム1のルート確率係数を、補正後の区切確率係数と等しいとし、nグラムx(2以降)の対応区切パターン(y番目)のルート確率係数ppxyは、補正後の区切確率係数pxyと、対応隣接区切パターンのルート確率係数の積であると定義する。補正処理については後述する。 Assume that the root probability coefficient of n-gram 1 is equal to the corrected partition probability coefficient, and the corresponding partition pattern (y-th) root probability coefficient pp xy of n-gram x (2 and later) is the corrected partition probability coefficient p xy. And the root probability coefficient of the corresponding adjacent delimiter pattern. The correction process will be described later.

補正後の確率係数を用いて算出した対応区切パターンのルート確率係数は、最初の単語nグラム(nグラム1)から最後の単語nグラム(nグラム6)まで、最も確からしいルート(最尤ルート)をたどった場合に、そのルートに現れる区切パターンの区切り方で単語列Wが区切れる確からしさを示す係数である。   The route probability coefficient of the corresponding delimiter pattern calculated using the corrected probability coefficient is the most probable route (maximum likelihood route) from the first word n-gram (n-gram 1) to the last word n-gram (n-gram 6). ) Is a coefficient indicating the probability that the word string W will be delimited by the delimiter pattern that appears in the route.

即ち、ルート確率係数が高い方を選択していくことで最尤ルートをたどることができ、そのときの区切パターンで単語列Wを区切ることができる確からしさが最も高いことを示す。   That is, it is shown that the highest likelihood route can be traced by selecting the route probability coefficient that is higher, and the probability that the word string W can be delimited by the delimiter pattern at that time is the highest.

このルート確率係数は、最尤ルートに現れる区切パターンの補正後の区切確率係数の一つ一つに対して、少なくとも所定の値域では増加関数である任意の式・算出方法で求める係数であるとしてもよい。   This route probability coefficient is a coefficient obtained by an arbitrary expression / calculation method that is an increasing function at least in a predetermined range with respect to each of the division probability coefficients after correction of the division pattern appearing in the maximum likelihood route. Also good.

例えば、最尤ルートに現れる区切パターンの補正後の区切確率係数の加算平均としても良い。また、補正後の区切確率係数とルート確率係数との対応関係を実験により求め、その対応関係を記憶したテーブルを予めプログラム記憶部703に記憶しておき、このテーブルを参照してルート確率係数を求めても良い。   For example, it may be an average of the division probability coefficients after correction of the division pattern appearing in the maximum likelihood route. Further, a correspondence relationship between the corrected division probability coefficient and the root probability coefficient is obtained by experiments, a table storing the correspondence relationship is stored in advance in the program storage unit 703, and the root probability coefficient is determined by referring to this table. You may ask.

このように、次の隣接nグラムの各区切パターンについてルート確率係数を算出し、最後の単語nグラム(図5の例ではnグラム6)のルート確率係数pp6yまで算出する。 In this way, the root probability coefficient is calculated for each delimiter pattern of the next adjacent n-gram, and the root probability coefficient pp 6y of the last word n-gram (n-gram 6 in the example of FIG. 5) is calculated.

ルート確率係数pp6yは、nグラム1からnグラム6まで、その区切パターンに到達する全てのルートのうち最も確からしいルートの区切り方の確からしさを示す係数である。 The route probability coefficient pp 6y is a coefficient indicating the likelihood of the most probable route delimitation among all the routes reaching the delimiter pattern from n-gram 1 to n-gram 6.

そこで、ルート確率係数pp6y(y=1〜8)のうち最も大きい値を持つ対応区切パターンを選択する。図5の例では、「1温野菜0添え1」(y=4)が選択される。選択された対応区切パターンに至るルートを特定して、単語列Wの最尤ルートとする。 Therefore, the corresponding delimiter pattern having the largest value among the route probability coefficients pp 6y (y = 1 to 8) is selected. In the example of FIG. 5, “1 warm vegetable 0 with 1” (y = 4) is selected. The route that leads to the selected corresponding delimiter pattern is identified and set as the maximum likelihood route of the word string W.

最尤ルートは、選択された区切パターンの隣接対応区切パターンのうち、より大きいルート確率係数を持つパターンを選択し、最後の単語nグラム(nグラム6)から最初の単語nグラム(nグラム1)まで辿ることにより定めることができる。最尤ルートに現れる区切パターンを、それぞれ単語列Wを区切る区切パターンとして選択し、その区切り方で単語列Wを区切ることとする。   For the maximum likelihood route, a pattern having a larger root probability coefficient is selected from the adjacent correspondence division patterns of the selected division pattern, and the first word n-gram (n-gram 1) is selected from the last word n-gram (n-gram 6). ). A delimiter pattern that appears in the maximum likelihood route is selected as a delimiter pattern that delimits the word string W, and the word string W is delimited according to the delimiter pattern.

図4に示す補正部3630が実行する補正処理について、図6を参照して説明する。あるnグラムx(ここではバイグラム)について、その区切フラグに対応する区切パターン(バイグラムの場合、八パターン)の補正前の確率係数paxy(y=1〜8)と、補正後の確率係数pxy(y=1〜8)の例を、図6(a)の表に示す。本実施形態では補正前の区切確率係数を二乗した数値を補正後の区切確率係数とする。 The correction process executed by the correction unit 3630 shown in FIG. 4 will be described with reference to FIG. For a certain n-gram x (here, bigram), the probability coefficient pa xy (y = 1 to 8) before correction of the partition pattern (eight patterns in the case of bigram) corresponding to the partition flag, and the probability coefficient p after correction An example of xy (y = 1 to 8) is shown in the table of FIG. In the present embodiment, a numerical value obtained by squaring the division probability coefficient before correction is set as a division probability coefficient after correction.

図6(a)の補正後の区切り確率係数は、補正前の区切確率係数を二乗し、補正前との比較のために正規化した数値である。例えば、パターン「010」は、バイグラムが「豚−バラ肉」であれば、区切パターンが「0豚1バラ肉0」となる区切フラグを示す。   The delimiter probability coefficient after correction in FIG. 6A is a numerical value obtained by squaring the delimiter probability coefficient before correction and normalized for comparison with that before correction. For example, the pattern “010” indicates a delimiter flag whose delimiter pattern is “0 pork 1 rose meat 0” if the bigram is “pork-rose meat”.

各パターンについて補正前の確率係数と、補正後の確率係数(正規化有り)を並べたグラフを図6(b)に示す。白い棒及び点線で示した補正前の確率係数に対し、黒い棒及び実践で示した補正後の確率係数の方がより大小を強調されている。補正後の確率係数は、補正前の確率係数に比べコントラストが拡大されており、そのためルート確率係数に与える影響が大きくなる。   FIG. 6B shows a graph in which probability coefficients before correction and probability coefficients after correction (with normalization) are arranged for each pattern. The black bars and the corrected probability coefficients shown in practice are emphasized more or less than the uncorrected probability coefficients indicated by white bars and dotted lines. The corrected probability coefficient has a larger contrast than the uncorrected probability coefficient, and therefore has a greater effect on the root probability coefficient.

具体的に説明する。最終的に選択されるルートは、各ルートに現れる区切パターンの補正後の区切確率係数の積(最終ルート確率係数pp61〜pp68)の相対的な大きさによって選択される。 This will be specifically described. The route finally selected is selected according to the relative size of the product of the division probability coefficients after correction of the division pattern appearing in each route (final route probability coefficients pp 61 to pp 68 ).

ある列xの値(px1〜px8)が全て二乗され、その他の列が同じであれば、最終ルート確率係数(pp61〜pp68)の値の大小には、その列xの値(px1〜px8)の大小がより強調されて現れる。そのため、列xの区切確率係数を二乗すれば、列xの値が選択結果に与える影響を拡大することができる。 If the values of a certain column x (p x1 to p x8 ) are all squared and the other columns are the same, the final route probability coefficient (pp 61 to pp 68 ) has a value of that column x ( The size of p x1 to p x8 ) appears more emphasized. Therefore, if the division probability coefficient of the column x is squared, the influence of the value of the column x on the selection result can be expanded.

尚、本実施形態のようにルート確率係数を補正後の区切確率係数と選択ルート確率係数の積で求める場合は、各列の値に任意の値を乗算しても最終ルート確率係数の大小は変化しない。   When the root probability coefficient is obtained by multiplying the segmented probability coefficient after correction and the selected root probability coefficient as in this embodiment, the magnitude of the final root probability coefficient is the same even if the value of each column is multiplied by an arbitrary value. It does not change.

次に、確率処理部40の構成を、図7を参照して説明する。確率処理部40は、図7に示すように、区切パターン取得部410、判別部420、(n−1)グラム生成部430、確率係数取得部440、確率係数算出部450、確率係数出力部460、及び記憶部470から構成される。   Next, the configuration of the probability processing unit 40 will be described with reference to FIG. As shown in FIG. 7, the probability processing unit 40 includes a delimiter pattern acquisition unit 410, a determination unit 420, an (n-1) gram generation unit 430, a probability coefficient acquisition unit 440, a probability coefficient calculation unit 450, and a probability coefficient output unit 460. And a storage unit 470.

区切パターン取得部410は、文字列解析部30から区切確率係数を取得する必要のある区切パターンを取得する。ここで、区切パターンは単語nグラムと、各語間の区切フラグとを示す情報から構成される。   The delimiter pattern acquisition unit 410 acquires a delimiter pattern that needs to acquire a delimiter probability coefficient from the character string analysis unit 30. Here, the delimiter pattern is composed of information indicating a word n-gram and a delimiter flag between words.

尚、ここではnグラム選択部340が選択した単語nグラムについて、区切パターン生成部350が生成した全区切パターンを取得するとする。区切パターン取得部410は、取得した区切パターンを判別部420に伝達する。   In this case, it is assumed that the whole delimiter pattern generated by the delimiter pattern generation unit 350 is acquired for the word n-gram selected by the n-gram selection unit 340. The delimiter pattern acquisition unit 410 transmits the acquired delimiter pattern to the determination unit 420.

判別部420は、区切パターン取得部410から伝達された単語nグラムの区切パターンについて、その区切れ方でメニューが区切れる確からしさを示す区切確率係数を取得できるか否か判別する。   The determination unit 420 determines whether or not a delimitation probability coefficient indicating the probability that the menu is delimited according to the delimiter pattern transmitted from the delimiter pattern acquisition unit 410 can be acquired.

判別部420は、判別処理にあたって、記憶部470の確率係数記憶部4710に記憶された確率係数リストを参照する。確率係数リスト及び判別部420が実行する判別処理の具体的内容については後述する。   The determination unit 420 refers to the probability coefficient list stored in the probability coefficient storage unit 4710 of the storage unit 470 in the determination process. Specific contents of the determination process executed by the probability coefficient list and determination unit 420 will be described later.

判別部420は、区切パターンの区切確率係数が取得できると判別すると、確率係数取得部440に区切パターンを伝達する。一方、区切パターンの区切確率係数が取得できないと判別すると、(n−1)グラム生成部430に区切パターンを伝達する。   If the determination unit 420 determines that the partition probability coefficient of the partition pattern can be acquired, the determination unit 420 transmits the partition pattern to the probability coefficient acquisition unit 440. On the other hand, if it is determined that the delimiter probability coefficient of the delimiter pattern cannot be acquired, the delimiter pattern is transmitted to the (n-1) gram generation unit 430.

(n−1)グラム生成部430は、判別部420から区切パターンを伝達されると、区切パターンを構成する最初の単語から(n−1)番目までの単語から構成される部分(n−1)グラムと、2つ目の単語からn番目までの単語から構成される部分(n−1)グラムとを生成する。   (N−1) When the gram generation unit 430 receives the delimiter pattern from the determination unit 420, the gram generation unit 430 includes a portion (n−1) composed of words from the first word constituting the delimiter pattern to (n−1) th ) And a part (n-1) gram composed of the second word to the nth word.

(n−1)グラム生成部430は、単語nグラムの区切パターンに基づいて、生成した2つの部分(n−1)グラムについて区切パターンを設定し、判別部420に伝達する。   The (n-1) gram generation unit 430 sets a delimiter pattern for the two generated (n-1) grams based on the delimiter pattern of the word n-gram, and transmits the delimiter pattern to the determination unit 420.

判別部420は、(n−1)グラム生成部430から2つの部分(n−1)グラムの区切パターンを伝達されると、2つの部分(n−1)グラムのそれぞれについて区切確率係数を取得できるか否か判別する。   When the delimiter 420 receives the delimiter pattern of two parts (n-1) grams from the (n-1) gram generator 430, the determinator 420 obtains delimiter probability coefficients for each of the two parts (n-1) grams. Determine if you can.

2つの部分(n−1)グラムの何れか一方でも区切確率係数を取得できない場合は、(n−1)グラム生成部430に3つの部分(n−2)グラムを生成させ、以下モノグラムになるまで同様に判別処理を繰り返す。   If the break probability coefficient cannot be obtained by either one of the two part (n-1) grams, the (n-1) gram generation unit 430 generates three parts (n-2) grams, and then becomes a monogram. The discrimination process is repeated in the same manner.

何れの区切確率係数も取得できた時点の部分jグラム(j=(n−1)〜1)の各区切パターンを確率係数取得部440に伝達する。尚、(n−1)グラム生成部430を経由する度に生成する部分jグラムの数が一つ増加する。判別部420と(n−1)グラム生成部430が実行する処理の具体的な内容については後述する。   Each division pattern of the partial j-gram (j = (n−1) to 1) at the time when any division probability coefficient can be acquired is transmitted to the probability coefficient acquisition unit 440. Note that the number of partial j-grams that are generated every time the (n-1) gram generation unit 430 is routed increases by one. Specific contents of processing executed by the determination unit 420 and the (n-1) gram generation unit 430 will be described later.

確率係数取得部440は、判別部420から区切パターン取得部410が取得した単語nグラムの区切パターンを伝達されると、確率係数記憶部4710に記憶された確率係数リストから区切確率係数を取得し、確率係数出力部460に伝達する。   Probability coefficient acquisition unit 440 receives the delimiter pattern of the word n-gram acquired by delimiter pattern acquisition unit 410 from determination unit 420 and acquires the delimiter probability coefficient from the probability coefficient list stored in probability coefficient storage unit 4710. And transmitted to the probability coefficient output unit 460.

一方、(n−1)グラム生成部430を経由して、部分jグラムの複数の区切パターンを伝達された場合も、全ての区切パターンについて確率係数リストから区切確率係数を取得する。全ての区切パターンと区切確率係数を、確率係数算出部450に伝達する。   On the other hand, even when a plurality of partial j-gram delimiter patterns are transmitted via the (n-1) gram generation unit 430, delimiter probability coefficients are acquired from the probability coefficient list for all delimiter patterns. All the delimiter patterns and delimiter probability coefficients are transmitted to the probability coefficient calculation unit 450.

確率係数算出部450は、確率係数取得部440から伝達された全ての区切パターン及び区切確率係数から、単語nグラムの区切パターンの区切確率係数を算出し、確率係数出力部460に伝達する。確率係数算出部450における単語nグラムの区切確率係数の算出処理については後述する。   The probability coefficient calculation unit 450 calculates a delimitation probability coefficient of the delimiter pattern of the word n-gram from all delimiter patterns and delimitation probability coefficients transmitted from the probability coefficient acquisition unit 440 and transmits the delimitation probability coefficient to the probability coefficient output unit 460. The processing for calculating the delimiter probability coefficient of the word n-gram in the probability coefficient calculation unit 450 will be described later.

確率係数出力部460は、確率係数取得部440で取得した区切確率係数を文字列解析部30に出力する。   The probability coefficient output unit 460 outputs the break probability coefficient acquired by the probability coefficient acquisition unit 440 to the character string analysis unit 30.

記憶部470は、確率処理部40の各部から情報を伝達され、伝達された情報を記憶する。また、確率処理部40の各部からのコマンドに応答して、記憶する情報を出力する。   The storage unit 470 receives information from each unit of the probability processing unit 40 and stores the transmitted information. In addition, in response to commands from each unit of the probability processing unit 40, information to be stored is output.

記憶部470は、後述する確率係数リストを記憶する確率係数記憶部4710と、確率処理部40が処理を実行するための設定パラメータを記憶する設定記憶部4720とを含む。   The storage unit 470 includes a probability coefficient storage unit 4710 that stores a later-described probability coefficient list, and a setting storage unit 4720 that stores setting parameters for the probability processing unit 40 to execute processing.

確率係数記憶部4710が記憶する確率係数リストの例を、図8を参照して説明する。図8は、バイグラムと区切フラグのパターンとに対応する区切確率係数を登録した確率係数リストの例である。   An example of the probability coefficient list stored in the probability coefficient storage unit 4710 will be described with reference to FIG. FIG. 8 is an example of a probability coefficient list in which break probability coefficients corresponding to bigrams and break flag patterns are registered.

確率係数リストは、データ記憶部702に蓄積された全ての教師データを単語nグラムにし、その区切パターンのデータがいくつあるかにより、確率をテーブル化し、確率係数記憶部4710に登録したものである。   In the probability coefficient list, all teacher data stored in the data storage unit 702 are converted into word n-grams, and the probabilities are tabulated and registered in the probability coefficient storage unit 4710 according to the number of data of the division patterns. .

例えば、100件のメニューが教師データに蓄積されていたとして、そのうち「豚バラ肉」が含まれているものが何件かあり、さらに「豚」と「バラ肉」が区切れているものが2件あったとき、バイグラム(豚,バラ肉)の区切フラグ「010」における確率係数リストの値は0.02となる。   For example, if 100 menus are accumulated in the teacher data, there are some cases that contain “pork rose meat”, and those that have “pig” and “rose meat” separated. When there are two cases, the value of the probability coefficient list in the division flag “010” of the bigram (pig, rose meat) is 0.02.

確率係数取得部440において、区切パターン「0豚1バラ0」の区切確率係数を取得する際は、確率係数リストのバイグラム「豚−バラ肉」の行、パターン「010」の列を参照して、数値0.02を返す。このように、確率係数リストは、単語nグラムの区切パターンについて、その区切パターンで教師データが区切れている確率を示すリストである。   When the probability coefficient acquisition unit 440 acquires the partition probability coefficient of the partition pattern “0 pig 1 rose 0”, refer to the row of the bigram “pork-rose meat” and the column of pattern “010” in the probability coefficient list. Returns the value 0.02. As described above, the probability coefficient list is a list indicating the probability that the teacher data is partitioned by the partition pattern of the partition pattern of the word n-gram.

次に、確率係数算出部450が、複数の単語jグラムの区切パターン及びその区切確率係数を用いて、単語nグラムの区切パターンの区切確率係数を算出する処理について、図9を参照して説明する。   Next, a process in which the probability coefficient calculation unit 450 calculates a delimitation probability coefficient of a delimiter pattern of a word n-gram using a delimiter pattern of a plurality of word j-grams and the delimiter probability coefficient thereof will be described with reference to FIG. To do.

例えば、あるトライグラムが確率係数リストに登録されていない場合に、バイグラムやモノグラムにおける区切確率係数から、当該トライグラムの区切確率係数を算出しようというものである。   For example, when a certain trigram is not registered in the probability coefficient list, the division probability coefficient of the trigram is calculated from the division probability coefficient in the bigram or monogram.

例として、トライグラム(の,赤ワイン,煮)が登録されていなかった場合に、注目区切パターン「0の1赤ワイン0煮1」の区切確率係数を算出する方法を示す。   As an example, when a trigram (no red wine, boiled) has not been registered, a method of calculating a delimitation probability coefficient of the target delimiter pattern “0 red wine 1 boiled 1” is shown.

このとき、前半のバイグラム(の,赤ワイン)と後半のバイグラム(赤ワイン,煮)が登録されていれば、図9(a)に示すように、区切パターン「0の1赤ワイン0」の区切確率係数と「1赤ワイン0煮1」の区切確率係数を取得し、その平均を取るなどして、トライグラムの区切確率係数を求める。   At this time, if the first bigram (no red wine) and the second bigram (red wine, boiled) are registered, as shown in FIG. 9A, the division probability coefficient of the division pattern “one red wine 0 of 0” And “1 red wine 0 boiled 1” are obtained, and the average is taken to obtain the division probability coefficient of the trigram.

バイグラムも登録されていない場合は、先頭のモノグラム(の)と中央のモノグラム(赤ワイン)と最後尾のモノグラム(煮)が登録されていれば、図9(b)に示すように、区切パターン「0の1」と「1赤ワイン0」と「0煮1」の区切確率係数を取得し、その平均を取るなどして、トライグラムの区切確率係数を求める。   If no bigram is registered, if the first monogram (no), the middle monogram (red wine), and the last monogram (boiled) are registered, as shown in FIG. The division probability coefficients of “1 of 0”, “1 red wine 0”, and “0 boiled 1” are acquired, and the average is taken to obtain the division probability coefficient of the trigram.

尚、区切確率係数を算出する方法は上記に限られず、前半のバイグラムにおける対応パターンの区切確率係数を、後半のバイグラムにおける対応パターンの区切確率係数で振り分けるという方法などを採ることもできる。   The method of calculating the break probability coefficient is not limited to the above, and a method of distributing the break probability coefficient of the corresponding pattern in the first half bigram by the break probability coefficient of the corresponding pattern in the second half bigram or the like can also be adopted.

次に、メニュー表示装置1の情報処理部70が実行する処理について、フローチャートを参照して説明する。メニュー表示装置1は、ユーザが画像入力部10を用いてメニューの画像を取得する操作を実行すると、図10に示すメニュー表示処理を開始する。   Next, processing executed by the information processing unit 70 of the menu display device 1 will be described with reference to a flowchart. When the user performs an operation of acquiring a menu image using the image input unit 10, the menu display device 1 starts the menu display process illustrated in FIG. 10.

メニュー表示処理では、まず画像入力部10を用いてメニューを撮影する等して画像取得を行う(ステップS101)。   In the menu display process, first, an image is acquired by photographing a menu using the image input unit 10 (step S101).

取得した画像を元にOCR20が文字読み取りを行い、認識した文字列を取得する(ステップS102)。   The OCR 20 reads characters based on the acquired image and acquires a recognized character string (step S102).

OCR20が文字列を取得して文字列解析部30に伝達すると、まず文字列解析部30の分かち書き部320が、文字列を単語単位に分割する分かち書きの処理を実行して、文字列を単語列Wに変換する(ステップS103)。   When the OCR 20 acquires a character string and transmits it to the character string analysis unit 30, the segmentation unit 320 of the character string analysis unit 30 first executes a segmentation process that divides the character string into units of words, and converts the character string into the word sequence. Conversion to W (step S103).

nグラム列生成部330が単語列Wからnグラム列生成を行う(ステップS104)。尚、以下n=2として説明する。   The n-gram string generation unit 330 generates an n-gram string from the word string W (step S104). In the following description, n = 2.

文字列解析部30は、メニューが単語列Wのどの部位で区切れるか推測し、メニューを分割するメニュー分割処理を実行する(ステップS105)。尚、メニュー分割処理の詳細は後述する。   The character string analysis unit 30 estimates which part of the word string W the menu is divided into, and executes a menu dividing process for dividing the menu (step S105). The details of the menu division process will be described later.

メニュー分割処理で、メニューを部分文字列に分割すると、カウンタ変数をiとして、i番目の部分列について変換部50が表示データを生成する処理を実行する。   When the menu is divided into partial character strings in the menu division processing, the conversion unit 50 executes processing for generating display data for the i-th partial sequence with the counter variable set to i.

即ち、i番目の部分列に含まれる各単語の解説データを用語辞書記憶部60から取得して、図2(c)に示すような表示データに変換する(ステップS106)。   That is, the explanation data of each word included in the i-th partial sequence is acquired from the term dictionary storage unit 60 and converted into display data as shown in FIG. 2C (step S106).

ステップS105で得られた部分列の全てについて表示データに変換する処理が終わったかを判別し(ステップS107)、終わっていない場合は(ステップS107;NO)、カウンタ変数iをインクリメントして(ステップS108)次の部分列についてステップS106から処理を繰り返す。   It is determined whether or not the process of converting to the display data has been completed for all of the partial columns obtained in step S105 (step S107). If not completed (step S107; NO), the counter variable i is incremented (step S108). ) The process is repeated from step S106 on the next partial sequence.

一方、全ての部分列について表示データに変換したと判別した場合は(ステップS107;YES)、得られた表示データを表示部80が表示する(ステップS109)。以上でメニュー表示処理は終了する。   On the other hand, when it is determined that all partial columns have been converted to display data (step S107; YES), the display unit 80 displays the obtained display data (step S109). The menu display process ends here.

ステップS105で実行されるメニュー分割処理を、図11を参照して説明する。メニュー分割処理では、まずnグラム選択部340が、qを1からnグラム列の個数までのカウンタ変数として、nグラム列のq番目の単語nグラムを注目nグラムとして選択する(ステップS201)。   The menu division process executed in step S105 will be described with reference to FIG. In the menu division process, first, the n-gram selection unit 340 selects q as the target n-gram by using q as a counter variable from 1 to the number of n-gram sequences and the q-th word n-gram in the n-gram sequence (step S201).

尚、ここではnグラム選択部340は先頭の単語nグラムから順に後ろの単語nグラムに向かって注目nグラムを選択していくとするが、注目nグラムを選択する順は逆からでも良い。   Here, the n-gram selection unit 340 selects the attention n-gram from the first word n-gram in order toward the subsequent word n-gram, but the order of selecting the attention n-gram may be reversed.

次に、区切パターン生成部350が、注目nグラムについて定義できる区切パターンを生成する(ステップS202)。ここでは、2^(n+1)=8個の区切パターンを生成する。区切パターン生成部350は、生成した区切パターンを図5に示すようなルート確率テーブルに配置する。   Next, the delimiter pattern generation unit 350 generates a delimiter pattern that can be defined for the target n-gram (step S202). Here, 2 ^ (n + 1) = 8 division patterns are generated. The delimiter pattern generation unit 350 arranges the generated delimiter patterns in a route probability table as shown in FIG.

次に、rを1から区切パターンの数までのカウンタ変数とし、ステップS202で生成した区切パターンのうちr番目の区切パターンを注目区切パターンとして選択する(ステップS203)。   Next, r is a counter variable from 1 to the number of partition patterns, and the r-th partition pattern is selected as the target partition pattern among the partition patterns generated in step S202 (step S203).

確率係数取得部3610が確率処理部40に注目区切パターンを伝達して、確率処理部40が注目区切パターンの区切確率係数pqrを取得する処理を開始する(ステップS204)。 The probability coefficient acquisition unit 3610 transmits the attention break pattern to the probability processing unit 40, and the probability processing unit 40 starts processing to obtain the break probability coefficient p qr of the attention break pattern (step S204).

即ち、確率係数取得部440が確率係数記憶部4710に記憶されている確率係数リストから注目nグラムの注目区切パターンについて区切確率係数を取得する。尚、区切確率係数取得処理の詳細については後述する。   That is, the probability coefficient acquisition unit 440 acquires a delimitation probability coefficient for the target delimiter pattern of the target n-gram from the probability coefficient list stored in the probability coefficient storage unit 4710. Details of the delimitation probability coefficient acquisition process will be described later.

ステップS204で注目区切パターンの区切確率係数pqrを取得すると、既に取得した前列のルート確率係数ppq−1y(y=1〜8)を用いてルート確率係数ppqrの算出処理を実行する(ステップS205)。尚、ルート確率係数算出処理の詳細については後述する。 When the partition probability coefficient p qr of the target partition pattern is acquired in step S204, the root probability coefficient pp qr is calculated using the previously acquired root probability coefficient pp q-1y (y = 1 to 8) in the previous row ( Step S205). Details of the route probability coefficient calculation process will be described later.

ステップS205でルート確率係数ppqrを算出すると、次に情報処理部70はステップS202で生成した全区切パターンについてルート確率係数を算出する処理が終了したか判別する(ステップS206)。 After calculating the route probability coefficient pp qr in step S205, the information processing unit 70 determines whether or not the processing for calculating the route probability coefficient for all the delimiter patterns generated in step S202 is completed (step S206).

即ち、注目nグラム(q列目の単語nグラム)について生成された8つの区切パターンについてルート確率係数(ppq1〜ppq8)の全てについて算出が終わっていた場合、処理が終了したと判別される。 That is, when the calculation is completed for all of the route probability coefficients (pp q1 to pp q8 ) for the eight segmentation patterns generated for the target n-gram (the word n-gram in the q-th column), it is determined that the processing is completed. The

全区切パターンについて処理済でないと判別すると(ステップS206;NO)、rをインクリメントし(ステップS207)、次の区切パターンについてステップS203から処理を繰り返す。   If it is determined that processing has not been completed for all the delimiter patterns (step S206; NO), r is incremented (step S207), and the processing is repeated from step S203 for the next delimiter pattern.

一方、全区切パターンについて処理済であると判別すると(ステップS206;YES)、次に、ステップS104で生成した全ての単語nグラムについてルート確率係数を算出する処理を終了したか判別する(ステップS208)。   On the other hand, if it is determined that all the segmentation patterns have been processed (step S206; YES), it is then determined whether or not the processing for calculating the root probability coefficient for all the word n-grams generated in step S104 has been completed (step S208). ).

全ての単語nグラムについて処理済でないと判別すると(ステップS208;NO)、qをインクリメントし(ステップS209)、次の単語nグラムについてステップS201から処理を繰り返す。   If it is determined that all the word n-grams have not been processed (step S208; NO), q is incremented (step S209), and the process is repeated from step S201 for the next word n-gram.

一方、全ての単語nグラムについて処理済であると判別すると(ステップS208;YES)、ルート選択部370が最後の単語nグラムの対応区切パターンから最もルート確率係数が大きいものを選択する。図5の例では、記号「*」で示されたルート確率係数pp64が選択される。 On the other hand, if it is determined that all the word n-grams have been processed (step S208; YES), the route selection unit 370 selects the one having the largest route probability coefficient from the corresponding delimiter patterns of the last word n-gram. In the example of FIG. 5, the root probability coefficient pp 64 indicated by the symbol “*” is selected.

最後の単語nグラムから最初の単語nグラムに向かって、選択された区切パターンの共通隣接区切パターンのうち、ルート確率係数が大きい方の区切パターンを順次選択していき、最尤ルートを求める(ステップS210)。   From the last word n-gram to the first word n-gram, among the common adjacent delimiter patterns of the selected delimiter pattern, the delimiter pattern having the larger root probability coefficient is sequentially selected to obtain the maximum likelihood route ( Step S210).

ステップS210で最尤ルート上にある区切パターンを選択すると、単語列分割部380がその区切パターンの区切り方で単語列Wを分割して部分文字列とする(ステップS211)。出力部390が部分文字列を変換部50に伝達して、メニュー分割処理は終了する。   When a delimiter pattern on the maximum likelihood route is selected in step S210, the word string dividing unit 380 divides the word string W by the method of delimiting the delimiter pattern into a partial character string (step S211). The output unit 390 transmits the partial character string to the conversion unit 50, and the menu division process ends.

ステップS204で実行される区切確率係数取得処理を、図12を参照して説明する。ステップS204に至り、メニュー解析部30から単語nグラムと区切フラグを含む区切パターンを区切パターン取得部410が受信すると、確率係数出力部40は区切確率係数取得処理を開始する。   The delimitation probability coefficient acquisition process executed in step S204 will be described with reference to FIG. In step S204, when the delimiter pattern acquisition unit 410 receives a delimiter pattern including the word n-gram and delimiter flag from the menu analysis unit 30, the probability coefficient output unit 40 starts delimiter probability coefficient acquisition processing.

区切確率係数取得処理では、まず判別部420が確率係数記憶部4710に記憶されている確率係数リストを参照する(ステップS301)。   In the delimiter probability coefficient acquisition process, first, the determination unit 420 refers to the probability coefficient list stored in the probability coefficient storage unit 4710 (step S301).

参照の結果、確率係数リストに注目nグラムの区切確率係数が有るか否か確認する(ステップS302)。   As a result of the reference, it is confirmed whether or not there is a delimitation probability coefficient of the target n-gram in the probability coefficient list (step S302).

注目nグラムの区切確率係数がある場合(ステップS302;YES)、確率係数リストから注目nグラムの区切パターンの区切確率係数を取得する(ステップS303)。   If there is a delimiter probability coefficient of the target n-gram (step S302; YES), a delimiter probability coefficient of the delimiter pattern of the target n-gram is acquired from the probability coefficient list (step S303).

一方、注目nグラムの区切確率係数が確率係数リストにない場合(ステップS302;NO)、単語(n−1)グラムからモノグラムまで段階を変えて区切確率係数算出処理を実行する(ステップS305)。   On the other hand, when the delimiter probability coefficient of the target n-gram is not in the probability coefficient list (step S302; NO), the delimiter probability coefficient calculation process is executed by changing the level from the word (n-1) gram to the monogram (step S305).

ステップS303又はステップS305で区切確率係数を取得すると、取得した区切確率係数を文字列解析部30に出力する(ステップS306)。以上で区切確率係数取得処理は終了する。   When the delimitation probability coefficient is acquired in step S303 or step S305, the acquired delimitation probability coefficient is output to the character string analysis unit 30 (step S306). This is the end of the separation probability coefficient acquisition process.

ステップS305で実行される区切確率係数算出処理について、図13を参照して説明する。区切確率係数算出処理では、まず(n−1)グラム生成部430が注目nグラムから二つの部分(n−1)グラムを生成する(ステップS401)。   The delimitation probability coefficient calculation process executed in step S305 will be described with reference to FIG. In the delimitation probability coefficient calculation process, first, the (n-1) gram generation unit 430 generates two part (n-1) grams from the target n-gram (step S401).

判別部420が、二つの部分(n−1)グラムの両方について、区切確率係数が取得可能であるか、確率係数記憶部4710に記憶された確率係数リストのうち部分(n−1)グラムのものを参照して確認する(ステップS402)。   Whether the determination unit 420 can obtain a delimitation probability coefficient for both of the two parts (n−1) grams or the part (n−1) grams of the probability coefficient list stored in the probability coefficient storage unit 4710. A thing is confirmed with reference to (step S402).

両方の部分(n−1)グラムの区切確率係数が取得可能であれば(ステップS402;YES)、部分(n−1)グラムの区切確率係数を用いて、注目区切パターンの区切確率係数を算出するためにステップS406に移行する。   If the delimitation probability coefficients of both partial (n-1) grams can be acquired (step S402; YES), the delimitation probability coefficient of the target delimiter pattern is calculated using the delimitation probability coefficients of the partial (n-1) gram. Therefore, the process proceeds to step S406.

何れかの部分(n−1)グラムの区切確率係数が確率係数リストに無い場合(ステップS402;NO)は、次に部分(n−2)グラムを用いて、というように段階を下げていき、区切確率係数の算出を試みる。   If the segmentation probability coefficient of any part (n-1) gram is not in the probability coefficient list (step S402; NO), the part (n-2) gram is used next, and so on. Try to calculate the break probability coefficient.

尚、モノグラムからは段階を下げられないので、ステップS401で生成した部分(n−1)グラムがモノグラムであったか判断し(ステップS403)、モノグラムでなければ(ステップS403;NO)さらに段階を下げて(ステップS404)、ステップS401から試行する。   Since the stage cannot be lowered from the monogram, it is determined whether the part (n-1) gram generated in step S401 is a monogram (step S403). If it is not a monogram (step S403; NO), the stage is further lowered. (Step S404), trial from step S401.

例えば、部分(n−2)グラムの段階では、部分列の単語数が2つ減るので、生成できる部分列が2つ増加する。注目nグラムがトライグラムであった場合、部分(n−2)グラムはモノグラムとなるので、3つのモノグラムを生成することになる。   For example, at the stage of the partial (n−2) gram, since the number of words in the partial sequence is reduced by 2, the number of partial sequences that can be generated is increased by two. When the target n-gram is a trigram, the portion (n-2) gram becomes a monogram, so that three monograms are generated.

一方、ステップS401で生成した部分(n−1)グラムがモノグラムであった場合(ステップS403;YES)、さらに段階を下げることはできないため、確率係数リストに区切確率係数が存在しないモノグラムについて、区切パターンを生成した上で、その区切確率係数にデフォルト値(ここでは0.5)を設定する(ステップS405)。   On the other hand, if the part (n-1) gram generated in step S401 is a monogram (step S403; YES), the level cannot be lowered further, so that a monogram having no delimiter probability coefficient in the probability coefficient list is delimited. After the pattern is generated, a default value (0.5 in this case) is set as the division probability coefficient (step S405).

ステップS401〜ステップS405で全ての区切確率係数を取得できる部分(n−1)グラムが決定したら、全ての部分(n−1)グラムについて、文字列解析部30から伝達された注目区切パターンと対応する語間で共通する区切フラグをもつ区切パターンを生成する(ステップS406)。   If the partial (n-1) gram which can acquire all the division | segmentation probability coefficients is determined by step S401-step S405, it respond | corresponds with the attention division | segmentation pattern transmitted from the character string analysis part 30 about all the partial (n-1) grams. A delimiter pattern having a delimiter flag common to the words to be generated is generated (step S406).

生成した全ての部分(n−1)グラムの区切パターンについて、確率係数取得処理のステップS303と同様に区切確率係数を取得する(ステップS407)。   For all the generated segment (n-1) gram delimiter patterns, delimiter probability coefficients are acquired in the same manner as in step S303 of the probability coefficient acquisition process (step S407).

得られた全ての部分(n−1)グラムの区切パターンの区切確率係数を加算平均して注目区切パターンの区切確率係数とする(ステップS408)。以上で確率係数算出処理は終了する。   The division probability coefficients of the division patterns of all the obtained part (n-1) grams are averaged to obtain the division probability coefficient of the target division pattern (step S408). This completes the probability coefficient calculation process.

ステップS205で実行されるルート確率係数算出処理を、図14を参照して説明する。ルート確率係数算出処理では、まず補正部3630において有効係数を定義する(ステップS501)。補正部3630で実行する補正処理は、有効係数が示す有効度に基づき行う。尚、有効係数は、部分列に含まれる単語の属性に基づく有効度を示す値であり、有効係数による補正については後述する。   The route probability coefficient calculation process executed in step S205 will be described with reference to FIG. In the route probability coefficient calculation process, first, an effective coefficient is defined in the correction unit 3630 (step S501). The correction process executed by the correction unit 3630 is performed based on the effectiveness indicated by the effective coefficient. The effective coefficient is a value indicating the effectiveness based on the attribute of the word included in the partial sequence, and correction using the effective coefficient will be described later.

補正部3630が、ステップS501で定めた有効係数が所定の閾値以上であるか判別する(ステップS502)。尚、閾値は有効係数が何であるかによって異なる。   Correction unit 3630 determines whether the effective coefficient determined in step S501 is equal to or greater than a predetermined threshold (step S502). The threshold value varies depending on what the effective coefficient is.

閾値以上であった場合(ステップS502;YES)、ルート選択における影響を高める補正処理を実行する(ステップS503)。具体的には、取得した区切確率係数を二乗する等して、補正後の区切確率係数とする。   If it is equal to or greater than the threshold (step S502; YES), a correction process for increasing the influence on route selection is executed (step S503). Specifically, the obtained partitioning probability coefficient is squared to obtain the corrected partitioning probability coefficient.

一方、有効係数が閾値より小さい場合(ステップS502;NO)、ステップS503をスキップする。   On the other hand, when the effective coefficient is smaller than the threshold value (step S502; NO), step S503 is skipped.

さらに、ルート確率係数算出部3640が隣接nグラムの対応区切パターンのうち、対応する区切フラグが共通する共通隣接区切パターンを抽出する(ステップS504)。尚、一度目のループでは、隣接nグラムについての処理がまだ終わっていないため、この処理はスキップされる。   Furthermore, the route probability coefficient calculation unit 3640 extracts a common adjacent delimiter pattern having a common delimiter flag from the corresponding delimiter patterns of adjacent n-grams (step S504). In the first loop, the processing for the adjacent n-grams has not been completed yet, so this processing is skipped.

次に、ルート確率係数算出部3640が抽出した共通隣接区切パターンのうち、ルート確率係数が大きいほうの区切パターンを選択し、選択された共通隣接区切パターンから注目区切パターンへのパスを、注目区切パターンへ至る最尤パスとして選択する(ステップS505)。尚、一度目のループでは、隣接nグラムについての処理がまだ終わっていないため、この処理はスキップされる。   Next, among the common adjacent delimiter patterns extracted by the route probability coefficient calculation unit 3640, a delimiter pattern having a larger route probability coefficient is selected, and a path from the selected common adjacent delimiter pattern to the target delimiter pattern is determined as the target delimiter. A maximum likelihood path to the pattern is selected (step S505). In the first loop, the processing for the adjacent n-grams has not been completed yet, so this processing is skipped.

ルート確率係数算出部3640は、ステップS505で選択した共通隣接区切パターンのルート確率係数と、区切確率係数取得処理で取得した注目区切パターンの区切確率係数又はステップS503で補正した区切確率係数とを乗算して、注目区切パターンのルート確率係数とする(ステップS506)。尚、一度目のループでは、注目区切パターンの区切確率係数をルート確率係数とする。以上でルート確率係数算出処理は終了する。   The route probability coefficient calculation unit 3640 multiplies the route probability coefficient of the common adjacent partition pattern selected in step S505 by the partition probability coefficient of the target partition pattern acquired in the partition probability coefficient acquisition process or the partition probability coefficient corrected in step S503. Then, it is set as the route probability coefficient of the noticeable separation pattern (step S506). In the first loop, the partition probability coefficient of the target partition pattern is set as the root probability coefficient. This completes the route probability coefficient calculation process.

ここで、有効係数について、図15を参照して説明する。図15は、教師データ内の単語に品詞を付したときのトライグラムリストを示す図である。文字列を単語に分割する際に、単語の有効度に着目し、共起単語間の接続確率に重み付けを行うことで、解析精度の向上を図る。そこで、ルート確率係数の算出にあたり、予め単語の品詞を元に重み付けを行う。   Here, the effective coefficient will be described with reference to FIG. FIG. 15 is a diagram showing a trigram list when parts of speech are attached to words in the teacher data. When the character string is divided into words, attention is paid to the effectiveness of the words, and the connection probability between the co-occurrence words is weighted to improve the analysis accuracy. Therefore, in calculating the route probability coefficient, weighting is performed in advance based on the part of speech of the word.

図15(a)に示すように、教師データはタグ付き文字列で表現されるが、教師データを作成する際に単語に品詞を付しておく。品詞の付け方としては、品詞を表すタグを用意する、単語を示すタグ<w></w>に品詞を表すパラメータを加える等の方法がある。   As shown in FIG. 15A, the teacher data is represented by a tagged character string, but a part of speech is attached to the word when the teacher data is created. There are methods for adding a part of speech, such as preparing a tag representing a part of speech or adding a parameter representing a part of speech to a tag <w> </ w> representing a word.

尚、ここでは、単語を示すタグに品詞を表すパラメータを加える手法で説明する。例えば、単語の品詞が名詞の場合は<w n></w>、動詞の場合は<w v></w>、形容詞の場合は<w a></w>、助詞の場合は<w x></w>のタグで挟む。   Here, a method of adding a parameter representing the part of speech to a tag indicating a word will be described. For example, if the word part of speech is a noun <wn> </ w>, a verb <wv> </ w>, an adjective <wa> </ w>, a particle <wx> < / w> tag.

図15(b)に示すように、教師データからトライグラムリストを作成すると、各トライグラムの品詞の出現頻度を把握することができる。尚、トライグラム作成時に各単語の品詞を分析して品詞情報を付加することも可能である。   As shown in FIG. 15B, when the trigram list is created from the teacher data, the frequency of appearance of the part of speech of each trigram can be grasped. It is also possible to add part of speech information by analyzing the part of speech of each word when creating a trigram.

単語の品詞のうち、助詞等は、メニューにおいてほとんど意味のない語である。それに対し、名詞、動詞、形容詞等は、メニューにおいて重要な語であり、これらの単語を有効語とする。メニューの文字列を区切る上でも、有効語が大きく影響を及ぼす。   Of the part of speech of a word, particles and the like are words that have little meaning in the menu. On the other hand, nouns, verbs, adjectives and the like are important words in the menu, and these words are effective words. Effective words also have a significant effect on the separation of menu strings.

図15の例では、有効語は、「アサリ」、「ワカメ」、「白ワイン」、「蒸し」となり、これらの単語がどう区切られるかが重要となる。そのため、トライグラムの中で、有効語が多く含まれているものの影響は大きくなる。   In the example of FIG. 15, the effective words are “clam”, “wakame”, “white wine”, and “steamed”, and how these words are separated is important. For this reason, the influence of a trigram containing many valid words increases.

即ち、各トライグラムにおいて、品詞の出現頻度は、ルート確率係数を算出する際に影響があると考えられる。そのため、ルート選択時に区切パターンの区切確率係数にそれが反映されれば、解析の精度は向上する。   That is, in each trigram, the part-of-speech appearance frequency is considered to have an influence when calculating the root probability coefficient. Therefore, if it is reflected in the division probability coefficient of the division pattern when the route is selected, the accuracy of the analysis is improved.

そこで、トライグラムリストに有効係数を持たせ、有効語の数を登録する。有効語が多く含まれている場合、例えば、トライグラムであれば、有効語を二つ以上含む場合は、その影響を反映させる。即ち、有効度の高いものに重みを持たせるのである。   Therefore, the trigram list has an effective coefficient, and the number of effective words is registered. When many valid words are included, for example, a trigram, when two or more valid words are included, the influence is reflected. In other words, weights are given to those having high effectiveness.

次に、予め設定した有効係数による補正について、図16を参照して説明する。図16は、教師データ内の単語に付した品詞に基づき重み付けを行った確率係数リストを示す図である。   Next, correction using a preset effective coefficient will be described with reference to FIG. FIG. 16 is a diagram illustrating a probability coefficient list in which weighting is performed based on parts of speech attached to words in teacher data.

トライグラムの確率係数リストは、トライグラムリストに対し区切パターンごとに区切確率係数を割り当てることで作成する。尚、区切確率係数は、全教師データのうち、当該トライグラムの区切パターンのデータが何件あるかの割合である。   The trigram probability coefficient list is created by assigning a delimiter probability coefficient for each delimiter pattern to the trigram list. The delimitation probability coefficient is the ratio of the number of trigram delimiter pattern data among all the teacher data.

例えば、(アサリ,と,ワカメ)を含むメニューは複数あるが、「アサリ」と「ワカメ」の間で区切られるメニューもあるが、区切られないメニューもあり、多くのメニューを教師データに登録しておくことで、区切られる可能性を推定することができるようになる。   For example, there are several menus that contain (clams, wakame), but some menus are divided between “clams” and “wakame”, but some menus are not separated, and many menus are registered in the teacher data. By doing so, it becomes possible to estimate the possibility of separation.

ここで、図16に示すように、(アサリ,と,ワカメ)は有効語を二つ含み有効係数が2であり、(と,ワカメ,の)は有効語を一つしか含まず有効係数が1である。「アサリ」と「ワカメ」の間で区切られるか否かは重要であるが、「と」と「ワカメ」の間で区切られるか否かは「と」の前の語によるところが大きく重要度は低い。   Here, as shown in FIG. 16, (clam, and wakame) includes two effective words and has an effective coefficient of 2, and (and wakame) has only one effective word and has an effective coefficient. 1. It is important whether or not it is divided between “clam” and “wakame”, but whether it is divided between “to” and “wakame” depends on the word before “to” and the importance is large. Low.

そこで、トライグラムの場合、有効係数が2以上であれば、有効語を多く含み語間で区切る際の重要な判断材料となるということで、そのトライグラムの区切確率係数を二乗した値にする。   Therefore, in the case of trigrams, if the effective coefficient is 2 or more, it will be an important judgment material when there are many effective words and it is divided between words, so that the delimiter probability coefficient of the trigram is squared. .

尚、補正処理において確率係数リストから取得した区切確率係数を二乗しても良いし、確率係数リストを作成する時点で有効係数を元に区切確率係数を二乗した状態で登録しておき、予め補正済みの区切確率係数を取得しても良い。   In the correction process, the dividing probability coefficient acquired from the probability coefficient list may be squared, or when the probability coefficient list is created, the dividing probability coefficient is registered based on the effective coefficient and is corrected in advance. You may acquire a completed division | segmentation probability coefficient.

二乗することで、確率の大きい区切パターンではより高い区切確率係数となり、確率の低い区切パターンではより低い区切確率係数となる。即ち、その区切パターンで区切られる可能性が大きく出ることになり、ルートを選択する際にも、大きく影響を及ぼすことになる。   By squaring, the partitioning pattern with a high probability has a higher partitioning probability coefficient, and the partitioning pattern with a lower probability has a lower partitioning probability coefficient. In other words, the possibility of being divided by the division pattern is greatly increased, and the route is greatly influenced.

尚、有効係数の大きさに応じて処理の段階を変えることも可能である。例えば、有効係数が3であれば三乗するという具合である。尚、区切確率係数は1より小さいので累乗すると数値がより小さくなっていくため、正規化しても構わない。   It is possible to change the processing stage according to the size of the effective coefficient. For example, if the effective coefficient is 3, it is raised to the third power. Since the division probability coefficient is smaller than 1, the numerical value becomes smaller as the power is raised, and may be normalized.

また、品詞に基づき有効語を設定したが、カテゴリなど単語が有する他の属性により有効語を設定することも可能である。例えば、料理名や材料名に使用されやすい単語は有効語とするとか、有効語の基準については任意である。   Further, although the effective word is set based on the part of speech, it is also possible to set the effective word according to other attributes of the word such as a category. For example, a word that is easily used for a dish name or an ingredient name is a valid word, or the standard of the valid word is arbitrary.

以上説明したように、実施形態に係るメニュー表示装置1によれば、教師データに基づいて生成された確率係数リストによって、メニューを表現する文字列を分割することができる。そのため、構文解析プログラムを言語ごとに用意しなくても文字列を適当な語間で区切ることができる。そして、言語の文法ルールをプログラム中に埋め込むことなく、複数の単語からなる料理メニューを一つの材料、料理法などを表す単位にメニューを分割することができる。   As described above, according to the menu display device 1 according to the embodiment, the character string representing the menu can be divided by the probability coefficient list generated based on the teacher data. Therefore, a character string can be divided between appropriate words without preparing a syntax analysis program for each language. Then, without embedding language grammar rules in the program, it is possible to divide the menu of a plurality of words into units representing one ingredient, cooking method, and the like.

また、本実施形態は、単語列を区切るにあたって、区切確率係数が最終的な区切り方により強い影響を与えるような方法を用いており、それにより精度の高い区切り方を推定することができる。   Further, in the present embodiment, when a word string is segmented, a method is used in which the segmentation probability coefficient has a stronger influence on the final segmentation method, whereby it is possible to estimate a segmentation method with high accuracy.

また、補正部が、有効度に基づき区切確率係数を補正し、有効度がより強く反映されたルート確率係数に基づき区切パターンを選択するので、単語列の区切り方を精度良く推定することができる。   In addition, since the correction unit corrects the partition probability coefficient based on the effectiveness and selects the partition pattern based on the root probability coefficient that reflects the effectiveness more strongly, it is possible to accurately estimate the word string partition method. .

また、区切パターンを選択するに当たって、その単語nグラムの区切パターンの区切確率係数だけでなく、隣接する区切パターンの区切フラグが共通する共通隣接区切パターンの区切確率係数をも考慮するので、より多くの情報に基づいて区切り方を定めることができる。   Further, in selecting a delimiter pattern, not only the delimiter probability coefficient of the delimiter pattern of the word n-gram but also the delimiter probability coefficient of the common adjacent delimiter pattern that shares the delimiter flag of the adjacent delimiter pattern is taken into account. Separation method can be determined based on the information.

また、ルート確率係数を、対応区切パターンの区切確率係数の増加関数として求めるので、単語nグラムを含む教師データでその区切り方で区切れている確からしさが大きいほど、その区切パターンが単語列の区切り方として選択される確率が高くなり、教師データの区切り方を単語列の区切り方に反映することができる。   In addition, since the root probability coefficient is obtained as an increasing function of the partition probability coefficient of the corresponding partition pattern, the greater the probability that the partition data is partitioned by the teacher data including the word n-gram, the greater the probability that the partition pattern is The probability of being selected as a delimiter is increased, and the method of delimiting teacher data can be reflected in the delimiter of word strings.

また、教師データが所定のカテゴリの文字列(ここではメニュー)から生成されているため、広範なカテゴリ(例えば日本語全体)の教師データを用いて区切パターンの区切確率係数を求めた場合よりも、カテゴリに合致した区切確率係数を求めることができる。   In addition, since the teacher data is generated from a character string of a predetermined category (here, a menu), it is more than the case where the delimiter probability coefficient of the delimiter pattern is obtained using teacher data of a broad category (for example, the whole Japanese). The division probability coefficient that matches the category can be obtained.

また、メニューを撮影し、その文字列を認識して解析及び表示することができるので、ユーザが文字列を手で入力せずとも文字列を取り込み、解説データを付加して表示することができる。そのため、たとえメニューが、ユーザが知らない言語で書かれていても、解説データを表示することができる。   Moreover, since the menu can be photographed and the character string can be recognized and analyzed and displayed, the user can capture the character string without adding the character string by hand and display it with the commentary data added. . Therefore, even if the menu is written in a language that the user does not know, comment data can be displayed.

以上、本発明の好ましい実施形態について説明したが、本発明は係る特定の実施形態に限定されるものではなく、本発明には、特許請求の範囲に記載された発明とその均等の範囲が含まれる。以下に、本願出願の当初の特許請求の範囲に記載された発明を付記する。   As mentioned above, although preferable embodiment of this invention was described, this invention is not limited to the specific embodiment which concerns, This invention includes the invention described in the claim, and its equivalent range It is. Hereinafter, the invention described in the scope of claims of the present application will be appended.

(付記1)
解析対象となる文字列を取得する文字列取得部と、前記文字列取得部が取得した文字列を単語列に変換し当該単語列に含まれる単語からなる部分列を順に抽出する部分列抽出部と、前記部分列抽出部が抽出した各部分列についてどの語間で当該単語列が区切れるか否かの全てのパターンを生成する区切パターン生成部と、前記区切パターン生成部が生成した各区切パターンについて教師データにおける区切れ方に基づく区切確率係数を取得し、前記部分列に含まれる単語の属性に基づき重み付けをする確率係数取得部と、前記確率係数取得部で取得した区切確率係数と、当該区切確率係数に対応する部分列の区切りパターンに隣接する部分列の共通隣接区切パターンのうち区切確率係数が大きい方とに基づいてルート確率係数を算出するルート確率係数算出部と、前記ルート確率係数算出部で算出したルート確率係数が大きい部分列を辿るようにルートを選択するルート選択部と、前記ルート選択部が選択したルートにおける区切パターンで当該単語列を分割する単語列分割部とを備えることを特徴とする情報処理装置。
(Appendix 1)
A character string acquisition unit that acquires a character string to be analyzed, and a partial string extraction unit that converts the character string acquired by the character string acquisition unit into a word string and sequentially extracts partial strings that are included in the word string A delimiter pattern generating unit that generates all patterns for determining whether or not the word string is delimited between each partial sequence extracted by the partial sequence extracting unit, and each delimiter generated by the delimiter pattern generating unit A probability coefficient acquisition unit that obtains a division probability coefficient based on a division method in the teacher data for the pattern, weights based on the attribute of the word included in the partial sequence, and a division probability coefficient acquired by the probability coefficient acquisition unit, A route for calculating a route probability coefficient based on a common adjacent separation pattern of a partial sequence adjacent to a separation pattern of a partial sequence corresponding to the separation probability coefficient, which has a larger separation probability coefficient. A probability coefficient calculation unit, a route selection unit that selects a route so as to follow a partial sequence having a large route probability coefficient calculated by the route probability coefficient calculation unit, and the word string in a delimiter pattern in the route selected by the route selection unit An information processing apparatus comprising: a word string dividing unit that divides

(付記2)
前記確率係数取得部は、部分列に含まれる単語の品詞を前記単語の属性として重み付けをすることを特徴とする付記1に記載の情報処理装置。
(Appendix 2)
The information processing apparatus according to supplementary note 1, wherein the probability coefficient acquisition unit weights a part of speech of a word included in a subsequence as an attribute of the word.

(付記3)
前記確率係数取得部は、部分列に含まれる単語のカテゴリを前記単語の属性として重み付けをすることを特徴とする付記1に記載の情報処理装置。
(Appendix 3)
The information processing apparatus according to appendix 1, wherein the probability coefficient acquisition unit weights a category of a word included in a partial sequence as an attribute of the word.

(付記4)
前記確率係数取得部は、予め前記部分列に含まれる単語の属性に基づき重み付けをした区切確率係数を取得することを特徴とする付記1乃至3のいずれか1つに記載の情報処理装置。
(Appendix 4)
The information processing apparatus according to any one of appendices 1 to 3, wherein the probability coefficient acquisition unit acquires a segmentation probability coefficient weighted in advance based on an attribute of a word included in the partial sequence.

(付記5)
文字列の画像を撮影する画像入力部と、前記画像入力部が撮影した画像から文字列を取得する文字列取得部と、前記文字列取得部が取得した文字列を単語列に変換し当該単語列に含まれる単語からなる部分列を順に抽出する部分列抽出部と、前記部分列抽出部が抽出した各部分列についてどの語間で当該単語列が区切れるか否かの全てのパターンを生成する区切パターン生成部と、前記区切パターン生成部が生成した各区切パターンについて教師データにおける区切れ方に基づく区切確率係数を取得し、前記部分列に含まれる単語の属性に基づき重み付けをする確率係数取得部と、前記確率係数取得部で取得した区切確率係数と、当該区切確率係数に対応する部分列の区切りパターンに隣接する部分列の共通隣接区切パターンのうち区切確率係数が大きい方とに基づいてルート確率係数を算出するルート確率係数算出部と、前記ルート確率係数算出部で算出したルート確率係数が大きい部分列を辿るようにルートを選択するルート選択部と、前記ルート選択部が選択したルートにおける区切パターンで当該単語列を分割する単語列分割部と、前記単語列分割部が分割した各単語列を対応する表示データに変換する変換部と、前記変換部が変換した表示データを表示する表示部とを備えることを特徴とするデータ表示装置。
(Appendix 5)
An image input unit that captures an image of a character string, a character string acquisition unit that acquires a character string from an image captured by the image input unit, and a character string obtained by converting the character string acquired by the character string acquisition unit into a word string A partial sequence extraction unit that sequentially extracts partial sequences composed of words included in the sequence, and generates all patterns for which partial sequence the word sequence is delimited for each partial sequence extracted by the partial sequence extraction unit A delimiter pattern generation unit that obtains delimitation probability coefficients based on how to delimit in the teacher data for each delimiter pattern generated by the delimiter pattern generation unit, and weights based on the attribute of the word included in the partial sequence The delimitation probability among the acquisition unit, the delimiter probability coefficient acquired by the probability coefficient acquisition unit, and the common adjacent delimiter pattern of the subsequence adjacent to the delimiter pattern of the subsequence corresponding to the delimiter probability coefficient A route probability coefficient calculation unit that calculates a route probability coefficient based on a larger number, a route selection unit that selects a route so as to follow a subsequence with a large route probability coefficient calculated by the route probability coefficient calculation unit, A word string dividing unit that divides the word string by a delimiter pattern in the route selected by the route selecting unit; a conversion unit that converts each word string divided by the word string dividing unit into corresponding display data; and the conversion unit A data display device comprising: a display unit that displays the display data converted by.

(付記6)
コンピュータに、解析対象となる文字列を取得する処理、前記取得した文字列を単語列に変換し当該単語列に含まれる単語からなる部分列を順に抽出する処理、前記抽出した各部分列についてどの語間で当該単語列が区切れるか否かの全てのパターンを生成する処理、前記生成した各区切パターンについて教師データにおける区切れ方に基づく区切確率係数を取得し、前記部分列に含まれる単語の属性に基づき重み付けをする処理、前記取得した区切確率係数と、当該区切確率係数に対応する部分列の区切りパターンに隣接する部分列の共通隣接区切パターンのうち区切確率係数が大きい方とに基づいてルート確率係数を算出する処理、前記算出したルート確率係数が大きい部分列を辿るようにルートを選択する処理、及び前記選択したルートにおける区切パターンで当該単語列を分割する処理を実行させることを特徴とするプログラム。
(Appendix 6)
A process for acquiring a character string to be analyzed in a computer, a process for converting the acquired character string into a word string and sequentially extracting partial strings composed of words included in the word string, and for each of the extracted partial strings Processing for generating all patterns of whether or not the word sequence is divided between words, obtaining a delimitation probability coefficient based on the delimitation method in the teacher data for each generated delimiter pattern, and the word included in the partial sequence Based on the process of weighting based on the attribute of the above, the obtained delimitation probability coefficient, and the larger delimitation probability coefficient among the common adjacent delimiter patterns of the partial sequences adjacent to the delimiter pattern of the partial sequence corresponding to the delimitation probability coefficient A route probability coefficient calculation process, a route selection process so that the calculated route probability coefficient traces a partial sequence, and the selected route probability coefficient. A program characterized by executing a process of dividing the word string at division pattern in.

1…メニュー表示装置、10…画像入力部、20…OCR、30…文字列解析部、40…確率処理部、50…変換部、60…用語辞書記憶部、70…情報処理部、80…表示部、90…操作入力部、701…情報処理部、702…データ記憶部、703…プログラム記憶部、704…入出力部、705…通信部、706…内部バス、707…制御プログラム、310…文字列取得部、320…分かち書き部、330…nグラム列生成部(部分列抽出部)、340…nグラム選択部、350…区切パターン生成部、360…ルート確率係数定義部、3610…確率係数取得部、3630…補正部、3640…ルート確率係数算出部、370…ルート選択部、380…単語列分割部、390…出力部、410…区切パターン取得部、420…判別部、430…(n−1)グラム生成部、440…確率係数取得部、450…確率係数算出部、460…確率係数出力部、470…記憶部、4710…確率係数記憶部、4720…設定記憶部、I1…画像   DESCRIPTION OF SYMBOLS 1 ... Menu display apparatus, 10 ... Image input part, 20 ... OCR, 30 ... Character string analysis part, 40 ... Probability processing part, 50 ... Conversion part, 60 ... Term dictionary memory | storage part, 70 ... Information processing part, 80 ... Display 90, operation input unit, 701 ... information processing unit, 702 ... data storage unit, 703 ... program storage unit, 704 ... input / output unit, 705 ... communication unit, 706 ... internal bus, 707 ... control program, 310 ... character Sequence acquisition unit, 320 ... Sequence writing unit, 330 ... n-gram sequence generation unit (partial sequence extraction unit), 340 ... n-gram selection unit, 350 ... separation pattern generation unit, 360 ... route probability coefficient definition unit, 3610 ... acquire probability coefficient Part, 3630 ... correction part, 3640 ... route probability coefficient calculation part, 370 ... route selection part, 380 ... word string division part, 390 ... output part, 410 ... delimiter pattern acquisition part, 420 ... discrimination 430 ... (n-1) gram generation unit, 440 ... probability coefficient acquisition unit, 450 ... probability coefficient calculation unit, 460 ... probability coefficient output unit, 470 ... storage unit, 4710 ... probability coefficient storage unit, 4720 ... setting storage unit , I1 ... Image

Claims (8)

解析対象となる文字列を単語列に変換し当該単語列に含まれる単語からなる部分列を順に抽出する部分列抽出部と、
前記部分列抽出部が抽出した各部分列についてどの語間で当該単語列が区切れるか否かの全てのパターンを生成する区切パターン生成部と、
前記区切パターン生成部が生成した各区切パターンについて教師データにおける区切れ方に基づく区切確率係数を取得し、前記部分列に含まれる単語の属性に基づき重み付けをする確率係数取得部と、
前記確率係数取得部で取得した区切確率係数と、当該区切確率係数に対応する部分列の区切りパターンに隣接する一つ前の部分列の共通隣接区切パターンのうち区切確率係数が大きい方とを乗算してルート確率係数を算出するルート確率係数算出部と、
前記ルート確率係数算出部で算出したルート確率係数が大きい部分列を辿るようにルートを選択するルート選択部と、
前記ルート選択部が選択したルートにおける区切パターンで当該単語列を分割する単語列分割部とを備えることを特徴とする情報処理装置。
A partial string extraction unit that converts a character string to be analyzed into a word string and sequentially extracts partial strings composed of words included in the word string;
A delimiter pattern generation unit that generates all patterns of whether or not the word string is delimited between words for each partial sequence extracted by the partial sequence extraction unit;
A probability coefficient acquiring unit that acquires a delimitation probability coefficient based on a delimitation method in teacher data for each delimiter pattern generated by the delimiter pattern generation unit, and weights based on an attribute of a word included in the partial sequence;
Multiplying the delimitation probability coefficient acquired by the probability coefficient acquisition unit by the one with the larger delimitation probability coefficient among the common adjacent delimiter patterns of the previous partial sequence adjacent to the delimiter pattern of the partial sequence corresponding to the delimitation probability coefficient and route probability factor calculation section that calculates the route probability coefficients,
A route selection unit that selects a route so as to follow a partial sequence having a large route probability coefficient calculated by the route probability coefficient calculation unit;
An information processing apparatus comprising: a word string division unit that divides the word string by a division pattern in a route selected by the route selection unit.
前記確率係数取得部は、部分列に含まれる単語の品詞を前記単語の属性として重み付けをすることを特徴とする請求項1に記載の情報処理装置。   The information processing apparatus according to claim 1, wherein the probability coefficient acquisition unit weights a part of speech of a word included in the partial sequence as an attribute of the word. 前記確率係数取得部は、部分列に含まれる単語のカテゴリを前記単語の属性として重み付けをすることを特徴とする請求項1に記載の情報処理装置。   The information processing apparatus according to claim 1, wherein the probability coefficient acquisition unit weights a category of a word included in a partial sequence as an attribute of the word. 前記確率係数取得部は、予め前記部分列に含まれる単語の属性に基づき重み付けをした区切確率係数を取得することを特徴とする請求項1乃至3のいずれか1項に記載の情報処理装置。   The information processing apparatus according to claim 1, wherein the probability coefficient acquisition unit acquires a segmentation probability coefficient that is weighted in advance based on an attribute of a word included in the partial sequence. 前記ルート確率係数算出部が乗算する前記区切確率係数および前記共通隣接区切パターンの複数の区切確率係数を、その乗算前にそれぞれ補正する補正部をさらに備えることを特徴とする請求項1乃至4のいずれか1項に記載の情報処理装置。  5. The correction unit for correcting the division probability coefficient multiplied by the route probability coefficient calculation unit and the plurality of division probability coefficients of the common adjacent division pattern before multiplication, respectively. The information processing apparatus according to any one of claims. 前記補正部は、前記共通隣接区切パターンの複数の区切確率係数の間でのコントラストが拡大するように、当該複数の区切確率係数を補正することを特徴とする請求項5に記載の情報処理装置。  The information processing apparatus according to claim 5, wherein the correction unit corrects the plurality of division probability coefficients so that contrast between the plurality of division probability coefficients of the common adjacent division pattern is increased. . 画像から文字列を取得する文字列取得部と、
前記文字列取得部が取得した文字列を単語列に変換し当該単語列に含まれる単語からなる部分列を順に抽出する部分列抽出部と、
前記部分列抽出部が抽出した各部分列についてどの語間で当該単語列が区切れるか否かの全てのパターンを生成する区切パターン生成部と、
前記区切パターン生成部が生成した各区切パターンについて教師データにおける区切れ方に基づく区切確率係数を取得し、前記部分列に含まれる単語の属性に基づき重み付けをする確率係数取得部と、
前記確率係数取得部で取得した区切確率係数と、当該区切確率係数に対応する部分列の区切りパターンに隣接する一つ前の部分列の共通隣接区切パターンのうち区切確率係数が大きい方とを乗算してルート確率係数を算出するルート確率係数算出部と、
前記ルート確率係数算出部で算出したルート確率係数が大きい部分列を辿るようにルートを選択するルート選択部と、
前記ルート選択部が選択したルートにおける区切パターンで当該単語列を分割する単語列分割部と、
前記単語列分割部が分割した各単語列を対応する表示データに変換する変換部と、
前記変換部が変換した表示データを表示する表示部とを備えることを特徴とするデータ表示装置。
A character string acquisition unit for acquiring a character string from an image ;
A partial string extraction unit that sequentially converts a character string acquired by the character string acquisition unit into a word string and extracts a partial string including words included in the word string;
A delimiter pattern generation unit that generates all patterns of whether or not the word string is delimited between words for each partial sequence extracted by the partial sequence extraction unit;
A probability coefficient acquiring unit that acquires a delimitation probability coefficient based on a delimitation method in teacher data for each delimiter pattern generated by the delimiter pattern generation unit, and weights based on an attribute of a word included in the partial sequence;
It multiplies the division probability coefficients obtained by the probability coefficient acquisition unit, and a person division probability coefficients of common neighboring division pattern of the previous subsequence adjacent to delimiting pattern of the portion column corresponding to the division probability factor is greater and route probability factor calculation section that calculates the route probability coefficients,
A route selection unit that selects a route so as to follow a partial sequence having a large route probability coefficient calculated by the route probability coefficient calculation unit;
A word string dividing unit that divides the word string by a division pattern in the route selected by the route selection unit;
A conversion unit that converts each word string divided by the word string dividing unit into corresponding display data;
A data display device comprising: a display unit configured to display display data converted by the conversion unit.
コンピュータに、
解析対象となる文字列を取得する処理、
前記取得した文字列を単語列に変換し当該単語列に含まれる単語からなる部分列を順に抽出する処理、
前記抽出した各部分列についてどの語間で当該単語列が区切れるか否かの全てのパターンを生成する処理、
前記生成した各区切パターンについて教師データにおける区切れ方に基づく区切確率係数を取得し、前記部分列に含まれる単語の属性に基づき重み付けをする処理、
前記取得した区切確率係数と、当該区切確率係数に対応する部分列の区切りパターンに隣接する一つ前の部分列の共通隣接区切パターンのうち区切確率係数が大きい方とを乗算してルート確率係数を算出する処理、
前記算出したルート確率係数が大きい部分列を辿るようにルートを選択する処理、及び
前記選択したルートにおける区切パターンで当該単語列を分割する処理を実行させることを特徴とするプログラム。
On the computer,
Processing to obtain the character string to be analyzed,
A process of converting the acquired character string into a word string and sequentially extracting partial strings composed of words included in the word string;
A process for generating all patterns of whether or not the word string is divided between which words for each of the extracted partial strings;
A process of obtaining a delimitation probability coefficient based on the delimiter in the teacher data for each generated delimiter pattern, and weighting based on the attribute of the word included in the partial sequence,
A route probability coefficient obtained by multiplying the obtained delimiter probability coefficient by the larger delimiter probability coefficient among the common adjacent delimiter patterns of the previous partial sequence adjacent to the delimiter pattern of the partial sequence corresponding to the delimiter probability coefficient Processing to calculate,
A program for executing a process of selecting a route so as to follow a partial sequence having a large calculated route probability coefficient, and a process of dividing the word string by a delimiter pattern in the selected route.
JP2012200010A 2012-09-11 2012-09-11 Information processing apparatus, data display apparatus, and program Active JP6056291B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2012200010A JP6056291B2 (en) 2012-09-11 2012-09-11 Information processing apparatus, data display apparatus, and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012200010A JP6056291B2 (en) 2012-09-11 2012-09-11 Information processing apparatus, data display apparatus, and program

Publications (2)

Publication Number Publication Date
JP2014056362A JP2014056362A (en) 2014-03-27
JP6056291B2 true JP6056291B2 (en) 2017-01-11

Family

ID=50613634

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012200010A Active JP6056291B2 (en) 2012-09-11 2012-09-11 Information processing apparatus, data display apparatus, and program

Country Status (1)

Country Link
JP (1) JP6056291B2 (en)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017004127A (en) * 2015-06-05 2017-01-05 富士通株式会社 Text segmentation program, text segmentation device, and text segmentation method
JPWO2017199389A1 (en) * 2016-05-19 2018-07-26 株式会社amuse oneself Information providing system, information providing method, and information providing program

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3938234B2 (en) * 1997-12-04 2007-06-27 沖電気工業株式会社 Natural language processing device
JP2006331354A (en) * 2005-05-30 2006-12-07 Sharp Corp Character recognition device, character recognition method, its program and recording medium
JP5834772B2 (en) * 2011-10-27 2015-12-24 カシオ計算機株式会社 Information processing apparatus and program
JP5870744B2 (en) * 2012-02-20 2016-03-01 カシオ計算機株式会社 Information processing apparatus and program

Also Published As

Publication number Publication date
JP2014056362A (en) 2014-03-27

Similar Documents

Publication Publication Date Title
JP6799800B2 (en) Semantic information generation method, semantic information generation device, and program
JP2007004633A (en) Language model generation device and language processing device using language model generated by the same
CN110781273B (en) Text data processing method and device, electronic equipment and storage medium
JP5043209B2 (en) Collective expansion processing device, collective expansion processing method, program, and recording medium
JP2009026287A (en) Character image extracting apparatus and character image extracting method
JP2008171380A (en) Image document processor, image document processing method, program and recording medium
JP2007004634A (en) Method for preparing language model, kana/kanji conversion method, its device, computer program and computer readable storage medium
JP5927955B2 (en) Information processing apparatus and program
JP2015088064A (en) Text summarization device, text summarization method, and program
JP5834772B2 (en) Information processing apparatus and program
CN110287286A (en) The determination method, apparatus and storage medium of short text similarity
JP5398602B2 (en) Language processor
WO2020243314A1 (en) System and method of extracting information in an image containing file for enhanced utilization and presentation
JP6056291B2 (en) Information processing apparatus, data display apparatus, and program
JP5701327B2 (en) Speech recognition apparatus, speech recognition method, and program
JP6085149B2 (en) Function execution instruction system, function execution instruction method, and function execution instruction program
JP5697648B2 (en) Word division device, data structure of word division dictionary, word division method, and program
JP5870744B2 (en) Information processing apparatus and program
US20130110499A1 (en) Information processing device, information processing method and information recording medium
JP5895828B2 (en) Information processing apparatus and program
JP2009265770A (en) Significant sentence presentation system
JP5978645B2 (en) Information processing apparatus, data display apparatus, and program
CN107423293A (en) The method and apparatus of data translation
JP5604276B2 (en) Document image generation apparatus and document image generation method
JP5538268B2 (en) Document summarization apparatus, document summarization method, and program

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20150908

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20160712

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20160715

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160912

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20161108

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20161121

R150 Certificate of patent or registration of utility model

Ref document number: 6056291

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150