JP2010102444A - Character string conversion device with dictionary search function - Google Patents
Character string conversion device with dictionary search function Download PDFInfo
- Publication number
- JP2010102444A JP2010102444A JP2008272228A JP2008272228A JP2010102444A JP 2010102444 A JP2010102444 A JP 2010102444A JP 2008272228 A JP2008272228 A JP 2008272228A JP 2008272228 A JP2008272228 A JP 2008272228A JP 2010102444 A JP2010102444 A JP 2010102444A
- Authority
- JP
- Japan
- Prior art keywords
- character string
- dictionary
- information
- unknown word
- extended
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Document Processing Apparatus (AREA)
Abstract
Description
本発明は、文字列変換装置に関し、特に、辞書検索機能付き文字列変換装置に関する。 The present invention relates to a character string converter, and more particularly to a character string converter with a dictionary search function.
携帯電話等の移動体通信端末の多くは、文字列情報を送受信する電子メール等の機能を備えている。また、このような機能を備える移動体通信端末は、一般に、送信する文字列情報を作成するためのテキストエディタ機能を備えている。 Many mobile communication terminals such as mobile phones have a function such as an electronic mail for transmitting and receiving character string information. In addition, a mobile communication terminal having such a function generally has a text editor function for creating character string information to be transmitted.
前記テキストエディタ機能は、キーボード等からの入力信号を文字コードに変換し、それらの文字コードに対応する文字の画像を移動体通信端末の画面上に表示し、さらに、入力された文字コード列(以下、文字列と呼ぶ)の他の文字列への変換候補を画面上に表示し、それらの変換候補から適切なものをキーボード等の操作によって選択し、選択された候補を変換として確定し、編集中の文字列情報に挿入する文字列変換機能を備えている。 The text editor function converts input signals from a keyboard or the like into character codes, displays character images corresponding to the character codes on the screen of the mobile communication terminal, and further inputs an input character code string ( The conversion candidates to other character strings (hereinafter referred to as character strings) are displayed on the screen, an appropriate one of those conversion candidates is selected by an operation such as a keyboard, and the selected candidate is confirmed as conversion, It has a character string conversion function to be inserted into the character string information being edited.
前記文字列変換機能は、前記入力文字列がひらがなやカタカナの読みであり、前記変換候補が前記読みに対応したかな漢字混じり文であるかな漢字変換機能や、前記読みに前方一致する読みを持つ変換候補を表示する予測変換機能等を備えている場合もある。 The character string conversion function is a kana-kanji conversion function in which the input character string is a reading of hiragana or katakana, and the conversion candidate is a kana-kanji mixed sentence corresponding to the reading, or a conversion candidate having a reading that matches the reading forward In some cases, a predictive conversion function or the like is provided.
また、前記文字列変換機能は、一般に、入力文字列と変換候補文字列との関係をデータ化した、辞書データベースを利用して処理を行う。 The character string conversion function generally performs processing using a dictionary database in which the relationship between an input character string and a conversion candidate character string is converted into data.
通常、文字列変換機能には、ユーザの利便性を考慮し、辞書データベースにあらかじめいくつかの入力文字列−変換候補文字列のデータを登録できるようになっている。 In general, in consideration of user convenience, the character string conversion function allows data of several input character strings-conversion candidate character strings to be registered in advance in the dictionary database.
辞書データベースに新たな関係データを登録する際、ユーザが1つずつ関係データをキーボード等で入力する方法があるが、この方法によると、登録したい関係データが複数ある場合、複数回の操作を繰り返す等の作業を行わなければならない。 When registering new relation data in the dictionary database, there is a method in which the user inputs the relation data one by one using a keyboard or the like. According to this method, when there are a plurality of relation data to be registered, a plurality of operations are repeated. Etc. must be done.
一方で、あらかじめ複数の関係データを登録した拡張辞書がネットワーク上のサーバから配布される場合があり、ユーザは拡張辞書をダウンロードして文字列変換装置に登録し、文字列変換装置は、前記基本辞書データベースと、前記拡張辞書を参照して、文字列変換候補を出力することができる。このような拡張辞書は、通常、特定の分野に関連した語を複数登録している場合が多い。特許文献1には、ユーザが既存メールに対して返信を行う場合、返信処理の対象となる電子メールに対して、文章の内容の解析を行い、文章のタイプを決定し、返信メール作成で使用する日本語変換辞書の種類を決定する装置および方法について記載されている。
On the other hand, an extended dictionary in which a plurality of relational data is registered in advance may be distributed from a server on the network, and the user downloads the extended dictionary and registers it in the character string conversion device. Character string conversion candidates can be output with reference to the dictionary database and the extended dictionary. In many cases, such extended dictionaries usually register a plurality of words related to a specific field. In
前記拡張辞書には、複数の語が登録されているのが通例である。文字列変換においては、入力文字列が同じ関係データが複数登録されている場合、それらすべて、もしくは優先度の高い順に所定の個数だけを変換候補として画面に表示するのが通例であり、候補数が多い場合には画面上に一度に表示できない場合がある。したがって、拡張辞書データベースにユーザが使用しない単語が含まれていると、それらの単語が画面上に表示されることによって、画面の表示領域の制約上、その他の変換候補が画面に表示されないといった問題が発生しうる。 In general, a plurality of words are registered in the extended dictionary. In character string conversion, when multiple related data with the same input character string are registered, it is customary to display all of them or only a predetermined number in the order of priority on the screen as conversion candidates. If there are many, it may not be displayed on the screen at once. Therefore, if words that are not used by the user are included in the extended dictionary database, these words are displayed on the screen, and other conversion candidates are not displayed on the screen due to restrictions on the display area of the screen. Can occur.
よって、ユーザが拡張辞書を使用登録する際には、前記の問題を回避するために、各拡張辞書に登録されている語についてどのくらいの頻度で使用するかを吟味し、拡張辞書を選んで登録することになる。拡張辞書については、登録されている語の一覧を端末装置等で参照できるのが一般的である。しかしながら、登録されている語についてどの程度の頻度で文字列変換時に使用するかを、ユーザが客観的に判断するには、ユーザが過去に作成した文章や、過去に閲覧した文章に含まれる語と、拡張辞書に登録されている語とを比較して判断する必要があるが、それは非常に煩雑な作業となる。 Therefore, when a user registers to use an extended dictionary, in order to avoid the above-mentioned problem, the frequency of use of words registered in each extended dictionary is examined, and an extended dictionary is selected and registered. Will do. As for the extended dictionary, a list of registered words can generally be referred to by a terminal device or the like. However, in order for the user to objectively determine how often a registered word is used during character string conversion, words included in sentences created by the user in the past or words read in the past It is necessary to make a judgment by comparing with words registered in the extended dictionary, which is a very complicated operation.
また、特許文献1に記載の方法では、あらかじめ文書のタイプを定義づけ、文章との関連タイプを定義する必要があるため、ユーザが新たに追加した拡張辞書については、ユーザがそれらの拡張辞書と、文章タイプとの関連づけを行う作業が必要となる。
Further, in the method described in
本発明は、このような実情を鑑みてなされたものであり、ユーザが拡張辞書に登録されている単語と、過去に作成した文章や過去に閲覧した文章に含まれる語とを比較確認する作業を必要とせずに拡張辞書を使用登録することができる文字列変換装置を提供する。 The present invention has been made in view of such circumstances, and a work for comparing and confirming a word registered in an extended dictionary by a user and a word included in a sentence created in the past or a sentence browsed in the past Provided is a character string conversion device capable of registering using an extended dictionary without the need for a password.
本発明の文字列変換装置は、拡張辞書に登録されている各語について、ユーザが過去に作成した文章や閲覧した文章においてどの程度の頻度で使用されているかを評価して拡張辞書を使用登録する。 The character string conversion device of the present invention evaluates how often each word registered in the extended dictionary is used in a sentence created or browsed by the user in the past, and registers the use of the extended dictionary To do.
本発明の文字列変換装置は、文章情報を記憶する文章情報記憶部と、文章情報から未知語情報を抽出する未知語情報抽出部と、文字列変換を行う文字列変換部と、前記文字列変換部が参照する基本辞書を記憶する基本辞書格納部と、前記文字列変換部が参照する拡張辞書を記憶する拡張辞書格納部と、前記拡張辞書格納部に記憶されている拡張辞書から文字列変換にて使用する拡張辞書を選択する辞書選択部とを備えた文字列変換装置であって、前記未知語情報抽出部は、前記基本辞書格納部に記憶されている基本辞書に登録されていない語を未知語として前記文章情報から抽出し、前記辞書選択部は、各拡張辞書における前記未知語の登録数を計算して、各登録数を比較して未知語の登録数が多い順に所定の数だけ拡張辞書を選択し、前記文字列変換部は、前記選択された拡張辞書に基づいて文字列変換を行うことを特徴とする。ここで、所定の数とは、文字列変換装置においてあらかじめ決められた、またはユーザが選択可能な、文字列変換装置において登録できる拡張辞書の数である。 A character string conversion apparatus according to the present invention includes a sentence information storage unit that stores sentence information, an unknown word information extraction unit that extracts unknown word information from the sentence information, a character string conversion unit that performs character string conversion, and the character string. A basic dictionary storage unit that stores a basic dictionary referred to by the conversion unit, an extended dictionary storage unit that stores an extended dictionary referred to by the character string conversion unit, and a character string from the extended dictionary stored in the extended dictionary storage unit A character string conversion device including a dictionary selection unit that selects an extended dictionary to be used for conversion, wherein the unknown word information extraction unit is not registered in the basic dictionary stored in the basic dictionary storage unit The word is extracted from the sentence information as an unknown word, and the dictionary selection unit calculates the number of registrations of the unknown word in each extended dictionary, compares the number of registrations, and determines a predetermined number in order of the number of registrations of unknown words. Select as many extended dictionaries as above String conversion unit, and performs string conversion based on the selected extended dictionary. Here, the predetermined number is the number of extended dictionaries that can be registered in the character string conversion device that is predetermined in the character string conversion device or that can be selected by the user.
前記未知語情報抽出部は、文章情報から未知語を抽出する際に、重複を許して未知語を抽出してもよい。 The unknown word information extraction unit may extract an unknown word while allowing duplication when extracting the unknown word from the sentence information.
前記文章情報記憶部は、送信者情報および/または受信者情報を含む文章情報を記憶し、前記未知語情報抽出部は、所定の送信者情報および/または受信者情報を含む文章情報から未知語を抽出してもよい。 The sentence information storage unit stores sentence information including sender information and / or receiver information, and the unknown word information extraction unit is configured to extract an unknown word from sentence information including predetermined sender information and / or receiver information. May be extracted.
前記文章情報記憶部は、送信時刻情報および/または受信時刻情報を含む文章情報を記憶し、前記未知語情報抽出部は、所定の期間内の送信時刻および/または受信時刻を含む文章情報から未知語を抽出してもよい。 The sentence information storage unit stores sentence information including transmission time information and / or reception time information, and the unknown word information extraction unit is unknown from sentence information including transmission time and / or reception time within a predetermined period. Words may be extracted.
表示部をさらに備え、文字列変換において、前記選択された拡張辞書を表す文字列を前記表示部が表示してもよい。 A display unit may be further provided, and in the character string conversion, the display unit may display a character string representing the selected extended dictionary.
前記表示部は、前記文字列変換部が出力する変換候補文字列のうち、前記選択された拡張辞書に登録されており、かつ前記抽出された未知語に含まれる変換候補文字列を、その他の変換候補文字列とは異なる表示方法によって表示してもよい。 The display unit registers the conversion candidate character strings registered in the selected extended dictionary and included in the extracted unknown word among the conversion candidate character strings output by the character string conversion unit, You may display by the display method different from a conversion candidate character string.
本発明の文字列変換装置は、ユーザが拡張辞書に登録されている単語と、過去に作成した文章や過去に閲覧した文章に含まれる語とを比較確認する作業を必要としない。 The character string conversion device according to the present invention does not require the user to compare and confirm the words registered in the extended dictionary with the words created in the past and the words included in the sentences browsed in the past.
以下、図面を参照しながら本発明の実施の形態について詳細に説明する。
図1は、本発明の文字列変換装置の構成の一例を示すブロック図である。文字列変換装置は、CPU(Central Processing Unit)1と、記憶装置2と、入力インタフェース3と、出力インタフェース4と、外部通信インタフェース5を備える。これらの各要素は、システムバスによって相互に接続され、データの送受信や処理を行う。
Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings.
FIG. 1 is a block diagram showing an example of the configuration of a character string conversion apparatus according to the present invention. The character string converter includes a CPU (Central Processing Unit) 1, a
記憶装置2は、ワーク領域6と、プログラム格納領域7と、データ格納領域8とを備える。
The
ワーク領域6は、プログラム格納領域7に記憶されているプログラムをCPU1が実行する時に必要な記憶領域である。
The work area 6 is a storage area required when the
プログラム格納領域には、制御プログラム9と、文字列変換プログラム10と、未知語抽出プログラム11と、文章データ管理プログラム12と、拡張辞書評価プログラム13と、画面表示プログラム14とが記憶されている。各プログラムをCPU1が実行することにより、辞書検索処理、文字列変換処理を行う。
In the program storage area, a
データ格納領域8は、文章データ格納領域15と、基本辞書データ格納領域16と、拡張辞書データ格納領域17とを備える。
The
文章データ格納領域15は、1つもしくは複数の文章データを記憶する。各文章データは、文字列情報を含む。また、各文章データは、文字列情報とは別に、送信者情報、受信者情報、送信時刻情報、受信時刻情報等を含んでもよい。
The text
基本辞書データ格納領域16は、1つもしくは複数の基本辞書データを記憶している。各基本辞書データは、入力文字列と、該入力文字列に対する変換候補文字列とを対応づけたデータから成る。
The basic dictionary
拡張辞書データ格納領域17は、1つもしくは複数の拡張辞書データを記憶している。各拡張辞書データは、入力文字列と、該入力文字列に対する変換候補文字列とを対応づけたデータから成る。
The extended dictionary
CPU1は、電源投入時に、記憶装置2のプログラム格納領域7に記憶された制御プログラム9を実行し、入力インタフェース3からの入力に応じて、記憶装置2のプログラム格納領域7に格納された各プログラムを実行する。
When the power is turned on, the
記憶装置2は、半導体メモリや、磁気ディスクおよび磁気ディスクドライブ、光学ディスクおよび光学ディスクドライブ等からなる。
The
入力インタフェース3は、キーボードやタッチパネル、マウス等の端末を操作し、文字列を入力するための外部デバイスと接続される。
The
出力インタフェース4は、CRT(Cathode Ray Tube)や液晶ディスプレイ等の表示デバイスと接続される。 The output interface 4 is connected to a display device such as a CRT (Cathode Ray Tube) or a liquid crystal display.
外部通信インタフェース5は、外部と無線または有線で通信し、電子メール等の文書データを送受信する。 The external communication interface 5 communicates with the outside wirelessly or by wire, and transmits / receives document data such as electronic mail.
文字列変換プログラム10は、入力インタフェース3を通じて入力された情報から入力文字列情報を作成し、該入力文字列情報に対する文字列変換を行なうためのプログラムである。文字列変換処理は、基本辞書データベースと、使用登録された拡張辞書データベースとを参照して行なわれる。また、入力文字列に対して1つまたは複数の変換候補を作成する。
The character
未知語抽出プログラム11は、文章データ格納領域に格納されている文章データを読み込み、文章データ中の文字列を分割して単語列を生成する。文字列の分割には形態素解析処理を行う。そして単語列に含まれる各単語の文字列を、基本辞書の変換候補文字列と比較し、一致する変換候補文字列がない場合は、その単語は基本辞書に登録されていないと判定する。そして登録されていない単語を未知語リストに追加する。文章データ中の全ての単語について比較が完了すると、未知語リストを出力する。
The unknown
未知語抽出プログラム11が、未知語リストに単語を追加する過程において、未知語リスト中の単語の重複を許して追加するようにしてもよい。例えば、文章データ中に「アーカイヴ」という文字列が複数含まれており、基本辞書に「アーカイヴ」という単語が登録されていなかったとする。この場合、未知語抽出プログラム11は、「アーカイヴ」という単語を文章データに含まれる個数分だけ未知語リストに追加してもよい。これにより各未知語は、文章中での出現回数分だけ未知語リストに登録されるので、出現回数によって重みづけされることになる。よって、文章データ中に含まれる未知語の種類は少ないが、それらの未知語が繰り返し多数出現する場合においても、拡張辞書評価プログラム13は、それらの単語が文字列変換時の変換候補としてより高い確率で出現するように拡張辞書の選択を行なうことができる。
The unknown
また、未知語抽出プログラム11が文章データを読み込む際に、文章データ中に含まれる送信者情報を参照し、所定の送信者情報、もしくは送信者情報が含まれる文章データのみを読み込むようにしてもよい。これにより特定の送信先の文章を作成する場合に、より使用頻度の高い候補を含む拡張辞書を選択することができるようになる。例えば、特定の相手との電子メールのやりとりにおいては、過去にその相手に送信した電子メール、もしくはその相手から受信した電子メールに含まれる語を使用する場合が多い。よって、その相手に対してメールの文章を作成する場合に、その相手から受信した電子メール、もしくはその相手に送信したメールから抽出した単語から生成された未知語リストに基づいて、拡張辞書評価プログラム13が拡張辞書を選択して使用登録すると、文章作成時の文字列変換において、より使用する確率の高い語を候補として表示できるという利点がある。
Further, when the unknown
また、未知語抽出プログラム11が文章データを読み込む際に、文章データに含まれる送信日時、もしくは受信日時を参照し、それらが所定の期間内である文章データのみを読み込むようにしてもよい。例えば、電子メール等の文章データを作成する場合は、一時的な流行に関わる語を使用する場合があり、そのような場合に、特定の期間内に送受信した電子メールを読みこんで未知語リストを抽出し、その未知語リストに基づいて拡張辞書評価プログラム13が拡張辞書を選択して登録すると、その期間の流行に関わる語をより高い確率で変換候補として表示できるという利点がある。
In addition, when the unknown
文章データ管理プログラム12は、外部通信インタフェース5経由で受信した文章データを文章データ格納領域15に格納し、また文章データ格納領域15から文章データを検索するためのプログラムである。
The text
画面表示プログラム14は、文字列変換において変換候補文字列を画面上に表示するためのプログラムである。
The
画面表示プログラム14は、文字列変換時に、使用登録されている拡張辞書を表す文字列を画面上に表示するようにしてもよい。これにより、ユーザは、拡張辞書評価プログラム13が使用登録した辞書を、その文字列を視認することにより識別できるという利点がある。
The
また、文字列変換にて拡張辞書による変換候補を表示する際に、前記文章から抽出された未知語の候補を、その他の候補と識別可能なように表示してもよい。具体的には候補文字列の字体を変える、候補文字列に下線を付す、候補文字列を枠で囲む、候補文字列もしくは候補文字列背景の表示色をその他の候補文字列と変える等の方法がある。これによりユーザは、文章中で使用された未知語のうち、どの未知語が拡張辞書によって登録されていたかを視認によって判別できる。 In addition, when displaying conversion candidates based on an extended dictionary in character string conversion, unknown word candidates extracted from the sentence may be displayed so as to be distinguishable from other candidates. Specifically, changing the font of the candidate character string, underlining the candidate character string, surrounding the candidate character string with a frame, changing the display color of the candidate character string or candidate character string background with other candidate character strings, etc. There is. Thereby, the user can discriminate visually which unknown word was registered by the extended dictionary among the unknown words used in the sentence.
図2は、図1に示す文字列変換装置のプログラム格納領域7に格納されているプログラムの処理の流れを示すフローチャートである。
FIG. 2 is a flowchart showing the flow of processing of the program stored in the
先ず、ステップS101において、文章データ管理プログラム12は、文章データ格納領域15から文章データを読み込む。
First, in step S <b> 101, the text
次に、ステップS102において、未知語抽出プログラム11は、読み込んだ文章データから、基本辞書データ格納領域16に格納された基本辞書に登録されていない語を未知語リストとして抽出する。
Next, in step S102, the unknown
次に、ステップS103において、拡張辞書評価プログラム13は、未チェックの拡張辞書がないかどうかを判定する。
Next, in step S103, the extended
未チェックの拡張辞書がある場合、ステップS104において、拡張辞書評価プログラム13がその中から1つの拡張辞書を選択する。
If there is an unchecked extended dictionary, in step S104, the extended
次に、ステップS105において、拡張辞書評価プログラム13は、前記未知語リストに含まれる語のうち、前記選択された拡張辞書に何件登録されているかを計算する。
Next, in step S105, the extended
次に、ステップS106において、現在の登録拡張辞書候補と、現在のチェック対象拡張辞書との未知語の登録件数を比較する。現在の登録拡張辞書候補よりも現在のチェック対象拡張辞書の方が未知語リスト中の未知語を多く登録している場合は、ステップS107において、登録拡張辞書候補を現在のチェック対象拡張辞書と入れ替える。また現在のチェック対象拡張辞書はチェック済として、再びステップS103の処理に戻る。 Next, in step S106, the number of unknown word registrations between the current registered extended dictionary candidate and the current check target extended dictionary is compared. If more unknown words in the unknown word list are registered in the current check target extended dictionary than the current registered extended dictionary candidate, the registered extended dictionary candidate is replaced with the current check target extended dictionary in step S107. . Further, it is determined that the current check target extended dictionary has been checked, and the process returns to step S103 again.
以降、ステップS103からステップS107の処理を繰り返し、ステップS103において未チェックの辞書がないと判定されたら、ステップS108に移行し、現在の登録拡張辞書候補を使用登録する。 Thereafter, the processing from step S103 to step S107 is repeated, and if it is determined in step S103 that there is no unchecked dictionary, the process proceeds to step S108, where the current registered extended dictionary candidate is registered for use.
図3は、図2のステップS105において拡張辞書評価プログラム13が未知語リスト中のうちチェック対象辞書に登録されている未知語の数を計算する処理の流れを説明するフローチャートである。
FIG. 3 is a flowchart for explaining the flow of processing in which the extended
まず、ステップS201において、未知語の登録数cntを0に初期化する。現在のチェック対象の未知語のインデックスを表すiを0に初期化する。未知語リストは、図4に示すように、先頭のインデックスを0、登録数をnとして、0から(n−1)番までのインデックスが各未知語に振られているものとする。 First, in step S201, the unknown word registration number cnt is initialized to zero. I representing the index of an unknown word to be checked is initialized to zero. In the unknown word list, as shown in FIG. 4, it is assumed that the index from 0 to (n-1) is assigned to each unknown word, where the top index is 0 and the number of registrations is n.
ステップS202において、iが未知語リストの登録数より小さいかどうかを判定する。 In step S202, it is determined whether i is smaller than the number of unknown word lists registered.
未知語リストの登録数より小さい場合は、ステップS203に移行し、未知語リストのi番目の未知語の文字列が拡張辞書に登録されているかを、拡張辞書に登録されている全ての文字列と、未知語の文字列とを比較して判定する。 If it is smaller than the number registered in the unknown word list, the process proceeds to step S203, and whether all the character strings registered in the extended dictionary indicate whether the character string of the i-th unknown word in the unknown word list is registered in the extended dictionary. And the character string of the unknown word.
登録されている場合は、ステップS204において、cntに1を加算し、ステップS205にてチェック対象のインデックスに1を加算する。登録されていない場合は、ステップS205にそのまま移行する。 If registered, 1 is added to cnt in step S204, and 1 is added to the index to be checked in step S205. If not registered, the process proceeds to step S205 as it is.
以降、ステップS202からステップS205の処理をiが未知語リストの登録数に達するまで繰り返し、達したら、S206において、cntをチェック対象辞書中の未知語リストの登録数として返す。 Thereafter, the processing from step S202 to step S205 is repeated until i reaches the number of registrations in the unknown word list, and when it is reached, cnt is returned as the number of registrations in the unknown word list in the check target dictionary.
以上説明したように、本発明の文字列変換装置は、拡張辞書に登録されている各語について、ユーザが過去に作成した文章や閲覧した文章においてどの程度の頻度で使用されているかを評価して拡張辞書を使用登録するため、ユーザが拡張辞書に登録されている単語と、過去に作成した文章や過去に閲覧した文章に含まれる語とを比較確認する作業を必要としないという利点がある。 As described above, the character string conversion device according to the present invention evaluates how frequently each word registered in the extended dictionary is used in a sentence created or browsed by the user in the past. Therefore, there is an advantage that the user does not need to compare and confirm the words registered in the extended dictionary with the words created in the past and the words included in the past viewed. .
また、拡張辞書の評価処理においては、拡張辞書と文書タイプとを関連付ける必要がなく、ユーザが拡張辞書をダウンロードした場合に前記関連付けの作業が必要ないという利点がある。 Further, in the extended dictionary evaluation process, there is no need to associate the extended dictionary with the document type, and there is an advantage that the association work is not required when the user downloads the extended dictionary.
本発明は、文字列変換装置に利用可能である。 The present invention can be used for a character string converter.
1 CPU
2 記憶装置
3 入力インタフェース
4 出力インタフェース
5 外部通信インタフェース
6 ワーク領域
7 プログラム格納領域
8 データ格納領域
9 制御プログラム
10 文字列変換プログラム
11 未知語抽出プログラム
12 文章データ管理プログラム
13 拡張辞書評価プログラム
14 画面表示プログラム
15 文章データ格納領域
16 基本辞書データ格納領域
17 拡張辞書データ格納領域
1 CPU
2
Claims (6)
文章情報から未知語情報を抽出する未知語情報抽出部と、
文字列変換を行う文字列変換部と、
前記文字列変換部が参照する基本辞書を記憶する基本辞書格納部と、
前記文字列変換部が参照する拡張辞書を記憶する拡張辞書格納部と、
前記拡張辞書格納部に記憶されている拡張辞書から文字列変換にて使用する拡張辞書を選択する辞書選択部とを備えた文字列変換装置であって、
前記未知語情報抽出部は、前記基本辞書格納部に記憶されている基本辞書に登録されていない語を未知語として前記文章情報から抽出し、
前記辞書選択部は、各拡張辞書における前記未知語の登録数を計算して、各登録数を比較して未知語の登録数が多い順に所定の数だけ拡張辞書を選択し、
前記文字列変換部は、前記選択された拡張辞書に基づいて文字列変換を行うことを特徴とする文字列変換装置。 A text information storage unit for storing text information;
An unknown word information extraction unit that extracts unknown word information from sentence information;
A character string conversion unit that performs character string conversion;
A basic dictionary storage for storing a basic dictionary referred to by the character string converter;
An extended dictionary storage for storing an extended dictionary referred to by the character string converter;
A character string conversion device including a dictionary selection unit that selects an extended dictionary to be used in character string conversion from the extended dictionary stored in the extended dictionary storage unit,
The unknown word information extraction unit extracts words that are not registered in the basic dictionary stored in the basic dictionary storage unit as unknown words from the sentence information,
The dictionary selection unit calculates the number of unknown words registered in each extended dictionary, compares each registered number, and selects a predetermined number of extended dictionaries in descending order of the number of unknown word registered,
The character string conversion device, wherein the character string conversion unit performs character string conversion based on the selected extended dictionary.
前記未知語情報抽出部は、所定の送信者情報および/または受信者情報を含む文章情報から未知語を抽出することを特徴とする請求項1または2に記載の文字列変換装置。 The sentence information storage unit stores sentence information including sender information and / or receiver information,
The character string conversion device according to claim 1, wherein the unknown word information extraction unit extracts an unknown word from sentence information including predetermined sender information and / or receiver information.
前記未知語情報抽出部は、所定の期間内の送信時刻および/または受信時刻を含む文章情報から未知語を抽出することを特徴とする請求項1乃至3のいずれか1項に記載の文字列変換装置。 The sentence information storage unit stores sentence information including transmission time information and / or reception time information,
4. The character string according to claim 1, wherein the unknown word information extraction unit extracts an unknown word from sentence information including a transmission time and / or a reception time within a predetermined period. 5. Conversion device.
文字列変換において、前記選択された拡張辞書を表す文字列を前記表示部が表示することを特徴とする請求項1乃至4のいずれか1項に記載の文字列変換装置。 A display unit;
5. The character string conversion device according to claim 1, wherein in the character string conversion, the display unit displays a character string representing the selected extended dictionary. 6.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008272228A JP5261133B2 (en) | 2008-10-22 | 2008-10-22 | Character string converter with dictionary search function |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008272228A JP5261133B2 (en) | 2008-10-22 | 2008-10-22 | Character string converter with dictionary search function |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2010102444A true JP2010102444A (en) | 2010-05-06 |
JP5261133B2 JP5261133B2 (en) | 2013-08-14 |
Family
ID=42293052
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008272228A Expired - Fee Related JP5261133B2 (en) | 2008-10-22 | 2008-10-22 | Character string converter with dictionary search function |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5261133B2 (en) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH1125084A (en) * | 1997-06-27 | 1999-01-29 | Casio Comput Co Ltd | Character string converter and its program recording medium |
JP2000163413A (en) * | 1998-11-27 | 2000-06-16 | Nec Home Electronics Ltd | Japanese converting device |
JP2006338588A (en) * | 2005-06-06 | 2006-12-14 | Sharp Corp | Word registration device |
-
2008
- 2008-10-22 JP JP2008272228A patent/JP5261133B2/en not_active Expired - Fee Related
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH1125084A (en) * | 1997-06-27 | 1999-01-29 | Casio Comput Co Ltd | Character string converter and its program recording medium |
JP2000163413A (en) * | 1998-11-27 | 2000-06-16 | Nec Home Electronics Ltd | Japanese converting device |
JP2006338588A (en) * | 2005-06-06 | 2006-12-14 | Sharp Corp | Word registration device |
Also Published As
Publication number | Publication date |
---|---|
JP5261133B2 (en) | 2013-08-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8364134B2 (en) | Automatic language selection for text input in messaging context | |
US8539349B1 (en) | Methods and systems for splitting a chinese character sequence into word segments | |
US10803241B2 (en) | System and method for text normalization in noisy channels | |
US9032031B2 (en) | Apparatus, method and computer program product for processing email, and apparatus for searching email | |
US20110314294A1 (en) | Password checking | |
CN108509569A (en) | Generation method, device, electronic equipment and the storage medium of enterprise's portrait | |
JPWO2018186445A1 (en) | Dialogue system | |
JP4891438B2 (en) | Eliminate ambiguity in keypad text entry | |
CN109948122A (en) | Error correction method and device for input text and electronic equipment | |
JP2007334534A (en) | Apparatus and method for inputting character string, and program | |
CN102577334A (en) | Method and apparatus for the automatic predictive selection of input methods for web browsers | |
JPWO2019202787A1 (en) | Dialogue system | |
US8296679B2 (en) | Method of learning character segments from received text, and associated handheld electronic device | |
CN105988992B (en) | Icon pushing method and device | |
JP5261133B2 (en) | Character string converter with dictionary search function | |
CN111984970B (en) | SQL injection detection method and system, electronic equipment and storage medium | |
JP6221275B2 (en) | Character input program and character input device | |
KR20080095823A (en) | Device and method for multilingual mailing capable of selecting text input mode | |
KR20180007183A (en) | sentence input method and devices using the Representative of alphabet with the spaces | |
JP2002108768A (en) | Information terminal equipment, electronic mail system connecting the same with server device, electronic mail creating method and recording medium recording electronic mail creating program | |
JP2006092223A (en) | Portable communication terminal and multi-language display control method | |
JPWO2018203510A1 (en) | Question estimator | |
JP4765107B2 (en) | Character string input device and program | |
KR101385210B1 (en) | Character input device and word providing method thereof | |
CN110297825B (en) | Data processing method, device, computer equipment and storage medium |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20110223 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120821 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20121015 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130402 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130426 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20160502 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |