JP2007004636A - Language input system, its processing method, recording medium and program - Google Patents
Language input system, its processing method, recording medium and program Download PDFInfo
- Publication number
- JP2007004636A JP2007004636A JP2005185767A JP2005185767A JP2007004636A JP 2007004636 A JP2007004636 A JP 2007004636A JP 2005185767 A JP2005185767 A JP 2005185767A JP 2005185767 A JP2005185767 A JP 2005185767A JP 2007004636 A JP2007004636 A JP 2007004636A
- Authority
- JP
- Japan
- Prior art keywords
- data
- reading
- input system
- language input
- dictionary
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Document Processing Apparatus (AREA)
Abstract
Description
本発明は、入力された読みに対する1以上の表記を表記リストへ表示し、表示された表記から1つの表記を選択し確定することができる言語入力システム、その処理方法、記録媒体及びプログラムに関する。 The present invention relates to a language input system, a processing method, a recording medium, and a program capable of displaying one or more notations for an input reading in a notation list and selecting and confirming one notation from the displayed notations.
従来、入力された言語、たとえば日本語の読みを所望の日本語表記(ひらがな、カタカナ、漢字、記号その他)に変換する日本語入力プログラムが動作する言語入力システムがある。日本語入力プログラムとして例えば、マイクロソフト社のMS−IME(Input Method Editor)(商標)、ジャストシステム社のATOK(商標)、バックス社のVJE(商標)及びその他がある(例えば、特許文献1参照)。 2. Description of the Related Art Conventionally, there is a language input system that operates a Japanese input program that converts an input language, for example, Japanese reading into desired Japanese notation (Hiragana, Katakana, Kanji, symbols, etc.). Examples of Japanese input programs include MS-IME (Input Method Editor) (trademark) of Microsoft Corporation, ATOK (trademark) of Just Systems Corporation, VJE (trademark) of Bucks Corporation, and others (see, for example, Patent Document 1).
例えばMS−IMEは、Windows(登録商標)等のOS(operating system)環境で動作するパーソナルコンピュータ(PC)上で動作する。MS−IMEは、MS−IMEが予め有している辞書データ(システム辞書)またはユーザによって定義された辞書データ(ユーザ辞書)を参照し、入力された読みに対する1以上の表記を辞書から取得する。MS−IMEは表記をPCの表示画面に表記リストとして表示し、読みをユーザが選択し確定した1表記に変換する。 For example, MS-IME operates on a personal computer (PC) that operates in an OS (operating system) environment such as Windows (registered trademark). MS-IME refers to dictionary data (system dictionary) that MS-IME has in advance or dictionary data (user dictionary) defined by a user, and acquires one or more expressions for input readings from the dictionary. . MS-IME displays the notation as a notation list on the display screen of the PC, and converts the reading into one notation selected and fixed by the user.
MS−IMEは、日本語の文字を入力するためのプログラムである。MS−IMEは、レキシコンデータベース(DB)と日本語の言語モデル(LM)とを使用して、表音文字(読み)から適当な表意文字(表記)を生成する。レキシコンは用語集でありMS−IMEの所謂辞書である。LMは、統計的な言語処理を行うための規則を規定した文法DBである。MS−IMEは、入力された読みに対応する1以上の表記をレキシコンDBから取り出し、それらからLMを使用した言語処理によって最適な1表記を確定する。 MS-IME is a program for inputting Japanese characters. MS-IME uses a lexicon database (DB) and a Japanese language model (LM) to generate appropriate ideograms (notation) from phonetic characters (reading). Lexicon is a glossary and a so-called dictionary of MS-IME. The LM is a grammar DB that defines rules for performing statistical language processing. The MS-IME extracts one or more notations corresponding to the input reading from the lexicon DB, and determines the optimum one notation by language processing using LM therefrom.
上述のような従来の言語入力システムにおいて、世間で生まれる略語や新語の例に見られるように、日本語の語彙は日々変化しているため、日本語入力プログラムの既定のDBは全ての日本語を網羅していない。したがって、日本語入力プログラムは、既定のDBに対応することはもちろんのこと、世間で生まれる種々の語を支援するユーザ関連DBにも対応することが求められている。 In the conventional language input system as described above, as seen in examples of abbreviations and new words born in the world, the vocabulary of Japanese changes every day, so the default DB of the Japanese input program is all Japanese Is not covered. Accordingly, the Japanese input program is required not only to correspond to a predetermined database but also to a user related DB that supports various words born in the world.
本発明は、このような課題に鑑みてなされたもので、その目的とするところは、ユーザ関連データの扱い易さを向上させた言語入力システム、その処理方法、記録媒体及びプログラムを提供することにある。 The present invention has been made in view of such problems, and an object of the present invention is to provide a language input system, a processing method thereof, a recording medium, and a program that improve the ease of handling user-related data. It is in.
このような目的を達成するために、本発明の言語入力システムは、所定の言語の入力された読みに対する1つ又は複数の表記を表示し、当該表示された表記の中から、1つの表記を選択するための言語入力システムであって、1つ又は複数のデータセット(203a、203b、203c、203d、203e)をレイヤ別に記憶した記憶手段であって、前記データセットは1つ又は複数のデータレコードを含み、前記データレコードは読みに対応した表記を取得するためのデータ定義を含む記憶手段(108)と、文章を解析し、該文章が含む語の読みに対応した前記データ定義を含むデータレコードを抽出する抽出手段(101、S712)と、前記抽出手段によって抽出された前記データレコードが、前記1つ又は複数のデータセットのいずれかに含まれるか否かを判定する抽出データ判定手段(101、S714)と、前記抽出データ判定手段によって、抽出された前記データレコードが前記1つ又は複数のデータセットのいずれにも含まれないとの判定がされた場合、抽出された前記データレコードを含む新たなデータセットを生成し、当該生成された新たなデータセットを前記記憶手段の空きレイヤに記憶するデータ生成手段(101、S716、S718)とを備えたことを特徴とする。 In order to achieve such an object, the language input system of the present invention displays one or more notations for an input reading in a predetermined language, and displays one notation from the displayed notations. A language input system for selection, which is a storage means for storing one or more data sets (203a, 203b, 203c, 203d, 203e) for each layer, wherein the data set is one or more data Storage means (108) including a data definition for obtaining a notation corresponding to reading, and data including the data definition corresponding to reading of a word included in the sentence by analyzing the sentence Extraction means (101, S712) for extracting records, and the data records extracted by the extraction means include the one or more data sets The data record extracted by the extracted data determining means (101, S714) for determining whether or not it is included in any of the one or a plurality of data sets is included in the one or more data sets. If it is determined that there is no data generation unit (101, S716) that generates a new data set including the extracted data record and stores the generated new data set in an empty layer of the storage unit. , S718).
また上記目的を達成するために、本発明の言語入力システムの処理方法は、所定の言語の入力された読みに対する1つ又は複数の表記を表示し、当該表示された表記の中から、1つの表記を選択するための言語入力システムの処理方法であって、前記言語入力システムは、1つ又は複数のデータセットをレイヤ別に記憶した記憶手段であって、前記データセットは1つ又は複数のデータレコードを含み、前記データレコードは読みに対応した表記を取得するためのデータ定義を含む記憶手段を有し、前記方法は、抽出手段が、文章を解析し、該文章が含む語の読みに対応した前記データ定義を含むデータレコードを抽出する抽出ステップと、前記抽出ステップにおいて抽出された前記データレコードが、前記1つ又は複数のデータセットのいずれかに含まれるか否かを抽出データ判定手段が判定する抽出データ判定ステップと、前記抽出データ判定ステップにおいて、抽出された前記データレコードが前記1つ又は複数のデータセットのいずれにも含まれないとの判定がされた場合、データ生成手段が、抽出された前記データレコードを含む新たなデータセットを生成し、当該生成された新たなデータセットを前記記憶手段の空きレイヤに記憶するデータ生成ステップとを備えることを特徴とする。 In order to achieve the above object, the processing method of the language input system of the present invention displays one or a plurality of notations for an input reading in a predetermined language, and one of the displayed notations is displayed. A method of processing a language input system for selecting a notation, wherein the language input system is a storage unit that stores one or more data sets by layer, and the data set includes one or more data Including a record, the data record having a storage means including a data definition for obtaining a notation corresponding to the reading, and the method is such that the extracting means analyzes the sentence and corresponds to the reading of the word included in the sentence. An extraction step for extracting a data record including the data definition, and the data record extracted in the extraction step is included in the one or more data sets. In the extracted data determination step in which the extracted data determination means determines whether or not it is included, and in the extracted data determination step, the extracted data record is included in any of the one or a plurality of data sets. When it is determined that there is no data, the data generation unit generates a new data set including the extracted data record, and stores the generated new data set in an empty layer of the storage unit. And a step.
なお、特許請求の範囲の構成要素と対応する実施形態中の図中符号等を()で示した。ただし、特許請求の範囲に記載した構成要素は上記()部の実施形態の構成要素に限定されるものではない。 In addition, the code | symbol etc. in the figure in embodiment corresponding to the component of a claim are shown by (). However, the constituent elements described in the claims are not limited to the constituent elements in the embodiment of the above () part.
以上の構成により、言語入力システムは、簡単な設計のレイヤ化構造を使用することによって、種々のユーザ指向の語彙情報を処理できる。また、言語入力システムは、既定のDBに対応する周知のユーザ状況はもちろんのこと、世間で生まれる種々の語を支援するユーザ関連DBに対応する新しいカテゴリの語彙も網羅できる。 With the above configuration, the language input system can process various user-oriented vocabulary information by using a layered structure with a simple design. Moreover, the language input system can cover not only the well-known user situation corresponding to a predetermined DB but also a new category of vocabulary corresponding to a user-related DB that supports various words born in the world.
本発明によれば、言語入力システムにおいて、ユーザ関連データの扱い易さを向上させる効果を奏する。 ADVANTAGE OF THE INVENTION According to this invention, in a language input system, there exists an effect which improves the ease of handling of a user related data.
以下、図面を参照して本発明を適用できる実施形態を詳細に説明する。なお、各図面において同様の機能を有する箇所には同一の符号を付し、説明の重複は省略する。 Embodiments to which the present invention can be applied will be described below in detail with reference to the drawings. In addition, the same code | symbol is attached | subjected to the location which has the same function in each drawing, and duplication of description is abbreviate | omitted.
(装置構成)
図1は、本実施形態における日本語の読みを所望の日本語表記に変換する日本語入力システムを実現するための、日本語入力プログラムをインストールしたPCのシステムブロック図である。本実施形態では、OSとしてWindows(登録商標)を搭載した汎用のPCを使用する日本語入力システムについて説明する。
(Device configuration)
FIG. 1 is a system block diagram of a PC installed with a Japanese input program for realizing a Japanese input system for converting Japanese readings into desired Japanese notation in the present embodiment. In the present embodiment, a Japanese language input system using a general-purpose PC equipped with Windows (registered trademark) as an OS will be described.
図1のPC100において、図中符号101はCPU(central processing unit)であり、システムメモリ102のRAM(random access memory)にロードされたプログラムを実行する。システムメモリ102はCPU101の実行するプログラムで必要な入力データ、プログラムの実行結果等各種のデータを保存するためのRAMや、BIOS(Basic Input/Output System)等を予め記憶したROM(read only memory)等である。また、システムメモリ102のRAMはディスプレイ107に表示するデータや、キーボード106、モデム103、マイク117等から入力されたデータを一時記憶する。
In the PC 100 of FIG. 1,
符号103はモデムであり、内部モデムであっても外部モデムであってもよく、シリアルポートインターフェースを介してシステムバス116に接続され、インターネットなどの広域ネットワーク120上の通信を確立する。符号104はCD(compact disc)−ROMドライブであり、装着されたCD−ROM105からデータを読み取る。本実施形態では、日本語入力プログラム及び関連のデータ(システム辞書ファイル等)を記録したCD−ROM105から読み取られたプログラム及びデータが、後述のハードディスク記憶装置(HD)108にインストールされている。
符号106はキーボードであり、文字に対応するキーを押下することで、文字を入力する。符号117はマイクであり、ユーザの発した音声をPC100へ入力する。符号107はディスプレイであり、キーボード106等から入力された文字やCPU101の演算結果を可視表示する。ポインティングデバイス115は、ディスプレイ107の表示画面上に表示されたポインタ(カーソル図形)を移動させ、また、その位置を確定のために指示することが可能であり、本実施形態では、マウスを使用する。上記ポインタの移動はマウス115自身をユーザが移動し、ポインタの位置の確定は左右のクリックボタンで行われる。符号116は、PC100の上述した各要素を接続するシステムバスである。
HD108には以下に述べるプログラム、データが保存目的で記憶されている。符号109はPC100及び周辺機器を制御するためのOSであり、本実施形態では上述のWindows(登録商標)が使用される。符号110は、本実施形態の日本語入力プログラム114以外の種々のアプリケーションプログラムであり、例えば、WEBコンテンツのWEBページを閲覧するためのブラウザ、エクスプローラ(商標)、ワープロソフト、データベース・ソフト、表計算ソフト、音声認識ソフト等である。
The
符号111はアプリケーションプログラム以外の種々のプログラムモジュールであり、例えば各種デバイスドライバや、各種API(Application Programming Interface)を提供するDLL(dynamic-link library)ファイル等である。プログラムデータ112は、OSその他各種プログラムが使用し又は生成する種々のデータである。プログラムデータ112は、本実施形態の日本語入力プログラムに付随した種々のシステム辞書ファイル及びユーザ辞書ファイル、日本語入力プログラムが表記リストの表示に要するGUI(graphical user interface)データを含む。ベンダーによって供給されたシステム辞書ファイルはシステム辞書データを含み、ユーザ辞書ファイルはユーザによって定義されたユーザ辞書データを含む。
符号114は日本語入力プログラムであり、CPU101が行う日本語入力プログラム処理の内容を規定した図7〜9のフローチャートで示されるプログラムである。このプログラムの詳細は以下の動作説明において後述される。
符号120は広域ネットワークであり、本実施形態ではインターネットを想定している。広域ネットワーク120にはWWW(World Wide Web)サーバ121が接続されている。本実施形態のシステム辞書ファイルを使用する日本語入力プログラム114のベンダーのWEBサイトが、WWWサーバ121上で公開されている。新たなシステム辞書ファイルの入手にあたっては、日本語入力プログラム114のベンダーが開くWEBサイトにPC100からネットワーク120経由でアクセスし、そこからファイルをダウンロードすることが可能である。
図2は、日本語入力プログラム114の動作概要を示すシステム構成図である。日本語入力プログラム114は、辞書サーチモジュール114aとLMモジュール114bを有する。
FIG. 2 is a system configuration diagram showing an outline of the operation of the
基本的に、辞書サーチモジュール114aは、入力された読み201に対応する1以上の表記を、ベンダー供給の既定のレキシコンDB内のシステム辞書ファイル202及びユーザレキシコンDB内のユーザ辞書ファイル203から取り出すモジュールである。また辞書サーチモジュール114aは、ユーザ辞書ファイル203内のデータの更新、削除等の管理を行う。LMモジュール114bは、LM内の学習結果ファイル204を使用した言語処理によって、辞書サーチモジュール114aが取り出した1以上の表記から最適な1表記の表記出力205を確定するモジュールである。
Basically, the
システム辞書ファイル202は、システム辞書データ202aを含む。ユーザ辞書ファイル203は、固有名詞辞書データ203a、E(電子)メール応答辞書データ203b、略語辞書データ203c、ドキュメントフォルダ辞書データ203d、新語辞書データ203e等を含む。学習結果ファイル204は学習結果データ204aを含む。
The
特に、本実施形態においては、辞書サーチモジュール114aによるユーザ辞書ファイル203中の各辞書データの管理方法に特徴があり、この各辞書データの管理方法、及び図2におけるこれら各データについては、以下で詳述される。
In particular, the present embodiment has a feature in the management method of each dictionary data in the
尚、学習結果データ204aはLMモジュールが表記出力205を確定した際の仮名漢字変換処理の学習結果を記録する。LMでの学習結果の記録の手法としては、ワードバイグラム(bigram)方式その他多様な方法が有るが、本実施形態では周知のフラグカウントを使用した学習ルーチンを適用する。
The learning
(動作説明)
以上述べたシステム構成において、本実施形態の日本語の読みを所望の日本語表記に変換するための日本語入力システムの日本語入力プログラム114の動作について以下、図3〜6を参照し説明する。
(Description of operation)
In the system configuration described above, the operation of the
本実施形態の日本語入力システムは、簡単な設計のレイヤ化構造を使用することによって、種々のユーザ指向の語彙情報を処理する。これにより、既定のレキシコンDBに対応する周知のユーザ状況はもちろんのこと、世間で生まれる種々の語を支援するユーザレキシコンDBに対応する新しいカテゴリの語彙も網羅することに特徴がある。 The Japanese input system of this embodiment processes various user-oriented vocabulary information by using a layered structure with a simple design. As a result, not only the known user situation corresponding to a predetermined lexicon DB but also a new category of vocabulary corresponding to the user lexicon DB that supports various words born in the world is covered.
さらに、日本語入力システムは、多様なカテゴリの辞書を管理可能なユーザレキシコンDBを支援し、多様なカテゴリの辞書データは単一のフォーマットを使用する。各辞書内のユーザ指向の語彙は、存在期間の特殊性を有する。例えば、新語は公衆や市場で生成されるが、時折そのような新語は不使用となり、その語は死語として扱われる。一方、人名のような固有名詞はユーザによって永久的に使用される。日本語入力システムは、このようなレイヤ化データ管理を使用することによって、ユーザの辞書データ間の存在期間の相違を簡単に処理できることに特徴がある。 Further, the Japanese input system supports a user lexicon DB that can manage dictionaries of various categories, and the dictionary data of various categories uses a single format. The user-oriented vocabulary within each dictionary has a period-specificity. For example, a new word is generated by the public or the market, but sometimes such a new word is not used and the word is treated as a dead word. On the other hand, proper nouns such as personal names are permanently used by users. The Japanese input system is characterized in that it can easily handle the difference in the existence period between the user's dictionary data by using such layered data management.
図3は、例えばメーラーによるEメール応答文書の編集中に、日本語入力プログラム114が上述の各辞書ファイルを参照して、入力された読み「はなし」を各辞書から取得した適当な表記へ変換する場合の例を示す図である。
FIG. 3 shows, for example, when editing an e-mail response document by a mailer, the
日本語入力プログラム114は、各辞書ファイルを参照し、表示画面上の図中符号301の位置に入力された読み「はなし」に対する1以上の表記を取得する。日本語入力プログラム114は、それら表記をPC100のディスプレイ107上の表示画面に表記リスト302として表示する。この時に表記リスト302中に表示される符号303の分数「6/6」は、フォーカス(強調のためハイライトされること)304が位置している表記「花氏」が全表記6個中の6番目の表記であることを示す。
The
日本語入力プログラム114は、ユーザがPCのキーボード106の↓(down)キー等を押し下げるとフォーカスを移動し、ユーザが確定キー(たとえばエンターキー)を押すと表記リスト302を閉じる。そして日本語入力プログラム114は、符号301の位置において、入力された読み「はなし」をユーザがフォーカスを移動して選択し確定した1表記「花氏」に変換する。
The
図4は、辞書サーチモジュール114aによるユーザ辞書ファイル203中の各辞書データの管理方法を示す図である。ユーザ辞書ファイル203は、データをレイヤ化した構造で格納する。ユーザ辞書ファイル203は、固有名詞辞書データ203a、Eメール応答辞書データ203b、略語辞書データ203c、ドキュメントフォルダ辞書データ203d、新語辞書データ203e等を各々独立したレイヤのデータとして格納することが可能である。図4は、ユーザ辞書ファイル203が、固有名詞辞書データ203a、略語辞書データ203c、新語辞書データ203eを各レイヤに既に格納している場合を示している。
FIG. 4 is a diagram showing a method of managing each dictionary data in the
辞書サーチモジュール114aは、メーラーによるEメール応答文書401の編集が開始されると、Eメール応答文書401中のメール送信者からの元のメッセージ401aを解析する。辞書サーチモジュール114aは、元のメッセージ401a中にあってシステムに既存の各辞書データに無い語を抽出し、それら抽出した語を含むEメール応答辞書データ203bを作成しユーザ辞書ファイル203中の空きレイヤに格納する。この時、Eメール応答辞書データ203bには存在期間「メール送信まで」が割り当てられる。
When the
これにより、辞書サーチモジュール114aは、Eメール応答文書401のメール送信を検知すると、Eメール応答辞書データ203bをユーザ辞書ファイル203から削除する。そして、Eメール応答辞書データ203bが格納されていたレイヤは空きレイヤとなる。存在期間「メール送信まで」により、Eメール応答辞書データ203b中の語が不使用となり死語として扱われる時期(Eメール応答文書401のメール送信時)に、Eメール応答辞書データ203bを不要と判断し自動的に破棄することができる。
As a result, when the
一方辞書サーチモジュール114aは、ワープロソフト等によりHD108内のフォルダ402中に格納されている文書ファイル402bの編集が開始されると、フォルダ402中の他の1つ以上の文書ファイル402aの文章を解析する。辞書サーチモジュール114aは、文書ファイル402aの文章中にあって各辞書データに無い語を抽出し、それら抽出した語を含むドキュメントフォルダ辞書データ203dを作成しユーザ辞書ファイル203中の空きレイヤに格納する。この時、ドキュメントフォルダ辞書データ203dには所定の存在期間「YYMMDDまで」が割り当てられる。表現形式YYMMDDのYYは西暦末尾(00〜99)を表し、MMは月(01〜12)、DDは日(01〜31)を示す。
On the other hand, when the editing of the
これにより、辞書サーチモジュール114aは、YYMMDDの超過を検知すると、キュメントフォルダ辞書データ203dをユーザ辞書ファイル203から削除する。そして、キュメントフォルダ辞書データ203dが格納されていたレイヤは空きレイヤとなる。ここで所定の存在期間「YYMMDDまで」には、ドキュメントフォルダ辞書データ203d中の語が不使用となり死語として扱われると見込まれる将来の時期を想定し、システムで予め既定した適当な時期が設定されるようしておけばよい。これによりドキュメントフォルダ辞書データ203dを不要となった時期に自動的に破棄することができる。
As a result, when the
さらに、ユーザ辞書ファイル203中の多様なカテゴリの辞書データは、全辞書を通して単一のフォーマットを使用する。辞書サーチモジュール114aは、このようなレイヤ化データ管理と単一フォーマットを使用することによって、ユーザ辞書ファイル203中の辞書データ間の存在期間の相違を簡単に処理できる。
Further, various categories of dictionary data in the
図5は、ユーザ辞書ファイル203中の辞書データ間の存在期間の相違を説明する図である。図5において右向きが未来への時間経過を示す。例えば、新語は公衆や市場で生成されるが、時折そのような新語は不使用となり、その語は死語として扱われる。そのため、新語辞書データ203eに所定の存在期間「YYMMDDまで」を割り当てることで、新語辞書データ203eの存在期間501cが既定される。また、Eメール応答文書401のメール送信が完了すると、Eメール応答辞書データ203b中の語が不使用となり死語として扱われる。そのため、Eメール応答辞書データ203bに存在期間「メール送信まで」を割り当てることで、Eメール応答辞書データ203bの存在期間501bが既定される。
FIG. 5 is a diagram for explaining a difference in existence period between dictionary data in the
一方、人名のような固有名詞はユーザによって永久的に使用される。そのため、固有名詞辞書データ203aに存在期間「永久」を割り当てることで、固有名詞辞書データ203aの永久的な存在期間501aが既定される。システム辞書データ202aは、ベンダー供給の既定のレキシコンDB内のシステム辞書ファイル202に含まれるデータなので、システム辞書データ202aの存在期間501xは永久である。
On the other hand, proper nouns such as personal names are permanently used by users. Therefore, the
図6は、システム辞書ファイル202、ユーザ辞書ファイル203、学習結果ファイル204の構造を示す図である。
FIG. 6 is a diagram showing the structure of the
図6は、日本語入力プログラム114が上述の表記リスト302を表示するに際し、学習結果ファイル204を参照して取得する、読み「はなし」に対する1以上の表記を有する表記リストテーブル601を示す。学習結果ファイル204は、各読みに対応したこのような1以上の表記リストテーブルからなる学習結果データ204aを格納したファイルである。
FIG. 6 shows a notation list table 601 having one or more notations for the reading “none”, which is acquired by referring to the
図6において、表記リストテーブル601は、読みフィールド602(データは一律「はなし」)、表記フィールド603及びフラグカウントフィールド604を有するレコードを複数含む。例えば、レコード605は、読み「はなし」に対する表記が「話し」で、そのフラグカウントが「4」である。フラグカウントはそのフラグカウントを有する表記について、表記リスト302の上位に表示される優先順位を示している。表記リストテーブル601中のレコードのフラグカウントの降順にそれらレコードの有する表記が表記リスト302に表示される。
In FIG. 6, the notation list table 601 includes a plurality of records each having a reading field 602 (data is “none”), a
ここで例えば、図3の符号301の位置において、入力された読み「はなし」がユーザがフォーカスを移動して選択し確定した1表記「話し」に変換されたとする。この場合、日本語入力プログラム114は、LMモジュールにより、図6のレコード605のフラグカウントをインクリメント(++)して「5」とし、確定した際の仮名漢字変換処理の学習結果を記録する。
Here, for example, at the position of
また図6は、各読みに対する1以上の表記を有するシステム辞書テーブル606を示す。システム辞書ファイル202は、このようなシステム辞書テーブル606、レイヤID(ブランク)、存在期間(永久)、データ名(システム辞書データ)から成るシステム辞書データ202aを格納したファイルである。
FIG. 6 also shows a system dictionary table 606 having one or more notations for each reading. The
図6において、システム辞書テーブル606は、読みフィールドと表記フィールドを有するレコードを複数含む。例えば、レコード群607は、上から順に読み「はなし、はなし、はなし、はなし、はなし」に対する表記が「話、話し、放し、噺、離し」である。尚、レコード群607にフラグカウントを付加したレコード群は、以前の学習結果として学習結果データ204a中の読み「はなし」の表記リストテーブル601に既に存在している。
In FIG. 6, the system dictionary table 606 includes a plurality of records each having a reading field and a notation field. For example, the
また図6は、各読みに対する1以上の表記を有する固有名詞辞書テーブル608を示す。ユーザ辞書ファイル203は、このような固有名詞辞書テーブル608、レイヤID(1)、存在期間(永久)、データ名(固有名詞辞書データ)から成る固有名詞辞書データ203aを格納したファイルである。さらに図6は、各読みに対する1以上の表記を有する新語辞書テーブル609を示す。ユーザ辞書ファイル203は、このような新語辞書テーブル609、レイヤID(5)、存在期間(YYMMDDまで)、データ名(新語辞書データ)から成る新語辞書データ203eを格納したファイルである。
FIG. 6 also shows a proper noun dictionary table 608 having one or more notations for each reading. The
ここで、図4を参照し説明した、辞書サーチモジュール114aがEメール応答辞書データ203bを作成しユーザ辞書ファイル203中の空きレイヤに格納する場合について、図6を参照し説明する。この場合、レイヤIDが2のレイヤ(以下、レイヤ2と呼ぶ)が空きレイヤであったとすると、Eメール応答辞書データ203bはレイヤ2に挿入され格納される。
Here, the case where the
図6は、Eメール応答辞書データ203bが格納された場合における、各読みに対する1以上の表記を有するEメール応答辞書テーブル610を示す。ユーザ辞書ファイル203は、このようなEメール応答辞書テーブル610、レイヤID(2)、存在期間(メール送信まで)、データ名(Eメール応答辞書データ)から成るEメール応答辞書データ203bを格納したファイルとなる。
FIG. 6 shows an email response dictionary table 610 having one or more notations for each reading when email
図6において、Eメール応答辞書テーブル610は、読みフィールドと表記フィールドを有するレコードを複数含む。例えば、レコード611は、読み「はなし」に対する表記が「花氏」である。ここで、Eメール応答辞書データ203bのレイヤ2への挿入に同期して、レコード611(読み「はなし」、表記「花氏」)にフラグカウント0を付加したレコードが、学習結果データ204a中の読み「はなし」の表記リストテーブル601に追加される。
In FIG. 6, the e-mail response dictionary table 610 includes a plurality of records each having a reading field and a notation field. For example, in the
次いで、図4を参照し説明した、辞書サーチモジュール114aがEメール応答辞書データ203bをユーザ辞書ファイル203から削除する場合について、図6を参照し説明する。この場合、Eメール応答辞書データ203bがレイヤ2から削除されると、レイヤ2のレイヤID以外がブランクとなりレイヤ2が空きレイヤとなる。
Next, the case where the
ここで、Eメール応答辞書データ203bのレイヤ2からの削除に同期して、レコード611(読み「はなし」、表記「花氏」)にフラグカウントを付加した上述のレコードは、学習結果データ204a中の読み「はなし」の表記リストテーブル601から削除される。
Here, in synchronization with the deletion of the e-mail
同様に、Eメール応答辞書データ203bのレイヤ2への挿入に同期して、レコード611(読み「はなし」、表記「花氏」)以外のレコード(例えば読み「ときお」、表記「時男」)についてもそれにフラグカウント0を付加したレコードが、学習結果データ204a中の読み「ときお」の表記リストテーブルに追加される。また、Eメール応答辞書データ203bのレイヤ2からの削除に同期して、レコード611(読み「はなし」、表記「花氏」)以外のレコード(例えば読み「ときお」、表記「時男」)についてもそれにフラグカウントを付加した上述のレコードは、学習結果データ204a中の読み「ときお」の表記リストテーブルから削除される。
Similarly, in synchronism with the insertion of the email
(プログラムの処理説明)
本実施形態における上記日本語入力に係る処理は、図7〜9のフローチャートに示す処理手順により行われる。図7〜9の処理手順は、CPU101が実行する日本語入力プログラム処理の内容を示し、CPU101が、HD108に記憶されている日本語入力プログラム114を、システムメモリ102のRAMにロードして実行することにより行われる。以下、CPU101が行う日本語入力プログラム114の処理手順について、図1〜6も合わせて参照しながら説明する。
(Program processing explanation)
The processing related to the Japanese input in the present embodiment is performed according to the processing procedure shown in the flowcharts of FIGS. 7 to 9 show the contents of the Japanese input program processing executed by the
ここで、OS109のブート後は、OS109により自動で日本語入力プログラム114がシステムメモリ102に常駐され、起動されているものとする。また、あらかじめメーラー又はワープロソフト等のアプリケーションも起動されているものとする。
Here, it is assumed that after the
図7において、CPU101は、OSからのイベントの有無を判定する(ステップS700)。OSからのイベントを検出した場合、CPU101は、そのイベントがアプリケーションによる文書の編集開始イベントか否かを判定する(ステップS702)。文書の編集開始の場合、CPU101は、API等の機能によりOSに問い合わせ、どのアプリケーションで文書編集中であるか情報を取得する(ステップS704→S706)。
In FIG. 7, the
メーラーで文書編集中の場合、CPU101は、図4に示したようなEメール応答文書401の編集開始か否かを判定する(ステップS708→S710)。Eメール応答文書401の編集開始ではない場合、CPU101は、メーラーの現行の処理を行い、OSからのイベント待ちに戻る(ステップS760→S700)。
When the document is being edited by the mailer, the
Eメール応答文書401の編集開始の場合、CPU101は、Eメール応答文書401中のメール送信者からの元のメッセージ401aを解析し、元のメッセージ401aに含まれる語の読みと表記を有するレコード(以下、語レコードと呼ぶ)を抽出する(ステップS712)。ここで、語レコードを抽出する解析手法としては、周知のn-gram方式、形態素解析等を適用すればよい。そしてCPU101は、抽出した語レコードのうち、元のメッセージ401a中に有ってシステムに既存の各辞書データ(システム辞書データ202a、固有名詞辞書データ203a、略語辞書データ203c、新語辞書データ203e等)に無い新しい語レコードを判定し、それら新しい語レコードを抽出する(ステップS714)。
When the editing of the
次いでCPU101は、ステップS714で抽出した新しい語レコード含むEメール応答辞書データ203bを、システムメモリ102のRAM上に作成する(ステップS716)。ここでEメール応答辞書データ203bは、図6に示したように、空きレイヤのレイヤID(例えば2)、存在期間(メール送信まで)、データ名(Eメール応答辞書データ)、抽出した新しい語レコードを有するEメール応答辞書テーブル610から成る。
Next, the
そしてCPU101は、Eメール応答辞書データ203bをユーザ辞書ファイル203中の空きレイヤ(例えばレイヤ2)に挿入し格納する(ステップS718)。さらにEメール応答辞書データ203bのレイヤ2への挿入に同期して、CPU101は、学習結果データ204aにEメール応答辞書データ203bに関連したレコードを追加する(ステップS720)。即ち、図6に示したように、例えばレコード611(読み「はなし」、表記「花氏」)及びそれ以外のレコード(例えば読み「ときお」、表記「時男」)について、それらにフラグカウント0を付加した各レコードが、学習結果データ204a中の読み「はなし」、「ときお」等の各表記リストテーブルに追加される。そしてCPU101は、OSからのイベント待ちに戻る(ステップS720→S700)。
The
一方、メーラー以外で文書編集中の場合、CPU101は、ステップS710〜S720の処理に準じた文書編集をしているそのアプリケーションに対応した処理を行う(ステップS708→S750)。例えば、CPU101は、図4に示したようにワープロソフト等によりHD108内のフォルダ402中に格納されている文書ファイル402bの編集が開始されると、フォルダ402中の他の1つ以上の文書ファイル402aの文章を解析する。CPU101は、文書ファイル402aの文章中にあって各辞書データに無い語を抽出し、それら抽出した語を含むドキュメントフォルダ辞書データ203dを作成しユーザ辞書ファイル203中の空きレイヤに格納する。この時、ドキュメントフォルダ辞書データ203dには所定の存在期間「YYMMDDまで」が割り当てられる。そしてCPU101は、OSからのイベント待ちに戻る(ステップS750→S700)。
On the other hand, when the document is being edited by other than the mailer, the
また、OSからのイベントが文書の編集開始以外の場合、CPU101は、そのイベントがキーボード106による読みの入力であるか判定する(ステップS702→S790)。OSからのイベントが読みの入力の場合、CPU101は、図8に示す処理に進む(ステップS790→図8)。OSからの読みの入力以外の場合、CPU101は、そのイベントがアプリケーションによる文書の編集終了イベントか否かを判定する(ステップS790→S795)。OSからのイベントが文書の編集終了の場合、CPU101は、図9に示す処理に進む(ステップS795→図9)。OSからのイベントが文書の編集終了以外の場合、CPU101は、そのイベントに対応した処理を行い、OSからのイベント待ちに戻る(ステップS795→S700)。
If the event from the OS is other than the start of document editing, the
図8において、OSからのイベントが読みの入力の場合、CPU101は、例えば図3を参照し上述したようなキーボード106により入力された読み「はなし」の情報を、システムメモリ102のRAM上のバッファへ格納する(ステップS800)。次いでCPU101は、学習結果データ204aから、入力された読み「はなし」に対応する表記リストテーブル601を認識する(ステップS802)。そしてCPU101は、表記リストテーブル601中のレコードのフラグカウントの降順にそれらレコードの有する表記を並べた表記リスト302のデータを、バッファに編集する(ステップS804)。
In FIG. 8, when the event from the OS is a reading input, the
続いてCPU101はユーザの変換キーの入力イベントを検知すると、上記ステップS804においてバッファ上に編集した表記リスト302のデータから取得される最初の表記(話し)を最初の変換文字列として、符号301の入力された読み「はなし」の位置に表示する(ステップS806)。
Subsequently, when the
最初の変換文字列の表示後、CPU101は確定キーの入力イベントを検知すると、ステップS808→S816→S818の1連の処理で最初の変換文字列を確定文字列として文書編集中のアプリケーション(例えばメーラー)へ渡し、後処理(S816→S818)を行う。後処理については後述する。
After displaying the first conversion character string, when the
最初の変換文字列の後、CPU101は再度変換キーの入力イベントを検知すると、バッファ上に編集した表記リスト302のデータを図3に示すように表記リスト302としてディスプレイ107の表示画面に表示する(ステップS808→S810)。
After detecting the conversion key input event again after the first conversion character string, the
CPU101は、図3に示すように、表示した表記リスト302中の表記を指示するフォーカス304を、変換キーとdown(↓)キーの入力イベントに対しては下方へ、up(↑)キーの入力イベントに対しては上方へ移動させる。また、CPU101は、フォーカス304が表記リスト302の上下限を超える場合には、表記リスト302をスクロールさせて更新する。この処理はステップS1812とステップS814の間をループする処理で行われる。なおCPU101は、フォーカス304で指示された表記を常に変換文字列として、符号301の入力された読み「はなし」の位置に表示する。
As shown in FIG. 3, the
CPU101はステップS814において確定キーの入力イベントを検知すると、後処理(ステップS816→S818)を行う。CPU101は後処理として、ステップS816→S818の1連の処理で、まず表記リスト302を閉じ、変換文字列(フォーカスされていた表記)を確定文字列として文書編集中のアプリケーション(例えばメーラー)へ渡す。
When the
ここで例えば、図3の符号301の位置において、入力された読み「はなし」がユーザがフォーカスを移動して選択し確定した1表記「話し」に変換されたとする。この場合、CPU101は、図6の学習結果データ204aの表記リストテーブル601中のレコード605について、そのフラグカウントをインクリメント(++)して「5」とし、確定した際の仮名漢字変換処理の学習結果を記録する(ステップS820)。CPU101は、その後、OSからのイベント待ちに戻る(図7のステップS700)。
Here, for example, at the position of
図9において、OSからのイベントが文書の編集終了の場合、CPU101は、現状の時間イベントをOSから取得し、その情報をシステムメモリ102のRAM上のバッファへ格納する(ステップS900)。現状の時間イベントとしては、「メール送信完了」、「YYMMDD」等の情報が適宜取得可能である。
In FIG. 9, when the event from the OS is the end of document editing, the
次いでCPU101は、ユーザ辞書ファイル203に既存の各辞書データ(固有名詞辞書データ203a、Eメール応答辞書データ203b、略語辞書データ203c、ドキュメントフォルダ辞書データ203d、新語辞書データ203e等)中の存在期間と、取得した現状の時間イベントとを比較する(ステップS902)。例えば、現状の時間イベントが「メール送信完了」であった場合、CPU101は、図6に示すように存在期間が「メール送信まで」であるEメール応答辞書データ203bを存在期間超過と判定し、処理をステップS904へ進める。
Next, the
CPU101は、ステップS904において、例えば、存在期間満了となった図6のEメール応答辞書データ203bをレイヤ2から削除し、レイヤ2のレイヤID以外をブランクとしてレイヤ2を空きレイヤとする。さらにEメール応答辞書データ203bのレイヤ2からの削除に同期して、CPU101は、学習結果データ204aからEメール応答辞書データ203bに関連したレコードを削除する(ステップS906)。即ち、図6に示したように、例えばレコード611(読み「はなし」、表記「花氏」)及び以外のレコード(例えば読み「ときお」、表記「時男」)について、それらにフラグカウントを付加した各レコードが、学習結果データ204a中の読み「はなし」、「ときお」等の各表記リストテーブルから削除される。CPU101は、その後、OSからのイベント待ちに戻る(図7のステップS700)。
In step S904, for example, the
一方、ステップS902において、ユーザ辞書ファイル203に既存の各辞書データが全て存在期間内と判定された場合、CPU101は、OSからのイベント待ちに戻る(ステップS902→図7のステップS700)。
On the other hand, if it is determined in step S902 that all existing dictionary data in the
(実施形態の効果)
以上説明したように本実施形態によれば、第1の態様として、所定の言語の入力された読みに対する1つ又は複数の表記を表示し、その表示された表記の中から、1つの表記を選択するための言語入力システムは、1つ又は複数のデータセット(203a、203b、203c、203d、203e)をレイヤ別に記憶した記憶手段であって、上記データセットは1つ又は複数のデータレコードを含み、上記データレコードは読みに対応した表記を取得するためのデータ定義を含む記憶手段(108)と、文章を解析し、その文章が含む語の読みに対応した上記データ定義を含むデータレコードを抽出する抽出手段(101、S712)と、上記抽出手段によって抽出された上記データレコードが、上記1つ又は複数のデータセットのいずれかに含まれるか否かを判定する抽出データ判定手段(101、S714)と、上記抽出データ判定手段によって、抽出された上記データレコードが上記1つ又は複数のデータセットのいずれにも含まれないとの判定がされた場合、抽出された上記データレコードを含む新たなデータセットを生成し、その生成された新たなデータセットを上記記憶手段の空きレイヤに記憶するデータ生成手段(101、S716、S718)とを備えたことを特徴とする。
(Effect of embodiment)
As described above, according to the present embodiment, as a first aspect, one or more notations for an input reading in a predetermined language are displayed, and one notation is displayed from the displayed notations. The language input system for selecting is a storage means that stores one or more data sets (203a, 203b, 203c, 203d, 203e) by layer, and the data set stores one or more data records. The data record includes a storage means (108) including a data definition for obtaining a notation corresponding to reading, and a data record including the data definition corresponding to reading of a word included in the sentence after analyzing the sentence The extracting means (101, S712) for extracting and the data record extracted by the extracting means are either one of the one or plural data sets. If the extracted data record is not included in any of the one or more data sets by the extracted data determination means (101, S714) for determining whether or not the data record is included Is determined, data generation means (101, S716, S718) for generating a new data set including the extracted data record and storing the generated new data set in an empty layer of the storage means. ).
ここで、第2の態様として、第1の態様の言語入力システムにおいて、上記1つ又は複数のデータセットの各々は共通のフォーマットを有し(図4、図6、203a、203b、203c、203d、203e)、上記データ生成手段は、上記フォーマットを有する上記新たなデータセットを生成することを特徴とすることができる。 Here, as a second aspect, in the language input system according to the first aspect, each of the one or more data sets has a common format (FIGS. 4, 6, 203a, 203b, 203c, 203d). 203e), the data generation means may generate the new data set having the format.
また、第3の態様として、第1又は第2の態様の言語入力システムにおいて、上記記憶手段に記憶された上記1つ又は複数のデータセットが含む上記データレコードは、読みとその読みに対応した表記とを含み(608、609)、上記抽出手段によって抽出された上記データレコードは、上記文章が含む語の読みとその読みに対応した表記とを含む(610)ことを特徴とすることができる。 As a third aspect, in the language input system according to the first or second aspect, the data record included in the one or more data sets stored in the storage means corresponds to the reading and the reading. The data record extracted by the extracting means includes a reading of a word included in the sentence and a notation corresponding to the reading (610). .
また、第4の態様として、第1乃至第3のいずれかの態様の言語入力システムにおいて、上記記憶手段に記憶された上記1つ又は複数のデータセットの各々は、存在期間を有し(図6、203a、203e)、上記データ生成手段は、上記新たなデータセットに存在期間を割り当てる(図6、203b、S716)ことを特徴とすることができる。 As a fourth aspect, in the language input system according to any one of the first to third aspects, each of the one or more data sets stored in the storage means has an existence period (see FIG. 6, 203a, 203e), and the data generation means assigns an existing period to the new data set (FIG. 6, 203b, S716).
また、第5の態様として、第4の態様の言語入力システムにおいて、上記記憶手段に記憶された1つ又は複数のデータセットの各々の存在期間を判定する期間判定手段(101、S902)と、上記期間判定手段によって存在期間が満了と判定されたデータセットを上記記憶手段から削除し、その削除されたデータセットが記憶されていたレイヤを空きレイヤとするデータ消去手段(101、S904)とをさらに備えたことを特徴とすることができる。 Further, as a fifth aspect, in the language input system of the fourth aspect, period determining means (101, S902) for determining each existing period of one or a plurality of data sets stored in the storage means; A data erasure unit (101, S904) that deletes from the storage unit the data set whose existence period has been determined to have expired by the period determination unit, and sets the layer in which the deleted data set is stored as an empty layer; Furthermore, it can be characterized by being provided.
また、第6の態様として、第1乃至第5のいずれかの態様の言語入力システムにおいて、上記文章は、電子メール応答文書中の電子メール送信者からの元のメッセージ(401a)であることを特徴とすることができる。 Further, as a sixth aspect, in the language input system according to any one of the first to fifth aspects, the sentence is an original message (401a) from the e-mail sender in the e-mail response document. Can be a feature.
また、第7の態様として、第1乃至第5のいずれかの態様の言語入力システムにおいて、上記文章は、特定のフォルダ内にある文書ファイル(402a)の内容であることを特徴とすることができる。 As a seventh aspect, in the language input system according to any one of the first to fifth aspects, the sentence is a content of a document file (402a) in a specific folder. it can.
また、第8の態様として、第1乃至第7のいずれかの態様の言語入力システムにおいて、上記所定の言語は日本語であることを特徴とすることができる。 As an eighth aspect, in the language input system according to any one of the first to seventh aspects, the predetermined language may be Japanese.
以上の構成により、言語入力システムは、簡単な設計のレイヤ化構造を使用することによって、種々のユーザ指向の語彙情報を処理できる。また、言語入力システムは、既定のDBに対応する周知のユーザ状況はもちろんのこと、世間で生まれる種々の語を支援するユーザ関連DBに対応する新しいカテゴリの語彙も網羅できる。 With the above configuration, the language input system can process various user-oriented vocabulary information by using a layered structure with a simple design. Moreover, the language input system can cover not only the well-known user situation corresponding to a predetermined DB but also a new category of vocabulary corresponding to a user-related DB that supports various words born in the world.
さらに、多様なカテゴリのユーザ関連データは単一のフォーマットを使用するので、言語入力システムは、このようなレイヤ化データ管理を使用することによって、ユーザ関連データ間の存在期間の相違を簡単に処理できる。 In addition, since various categories of user-related data use a single format, the language input system can easily handle lifetime differences between user-related data by using such layered data management. it can.
(他の実施形態)
以上述べた実施形態の他に次の形態を実施できる。
1)上述の実施形態では、1実施形態を例示する便宜上、図2、4、6〜9等において、1個のユーザ辞書ファイル203内での複数辞書データ(203a、203b、203c、203d、203e等)のレイヤ構造として説明した。しかし本実施形態はこれに限られず、各辞書データ(203a、203b、203c、203d、203e等)が各々1個のユーザ辞書ファイルを構成し、それら複数のユーザ辞書ファイルのレイヤ構造とした実施形態に変形が可能であることは、当業者には容易に理解できよう。
(Other embodiments)
In addition to the embodiments described above, the following embodiments can be implemented.
1) In the above-described embodiment, for convenience of illustrating one embodiment, a plurality of dictionary data (203a, 203b, 203c, 203d, 203e in one
さらに、上述の実施形態では、1個のシステム辞書ファイル202が1個のシステム辞書データ202aを含む場合を説明したが、本実施形態はこれに限られず、システム辞書ファイルが複数の実施形態、又は1個のシステム辞書ファイルが複数のシステム辞書データを含む実施形態に変形が可能であることは、当業者には容易に理解できよう。
Furthermore, although the case where one
2)上述の実施形態では、ユーザがキーボード106を使用して入力したディスプレイ107の表示画面上の、符号301の位置に入力された読み「はなし」に対して、仮名漢字変換処理する場合を例に説明した。しかし、本発明は仮名漢字変換のみに限るものではなく、言語処理系全般に適用可能である。例えば読みの入力はキーボードに限らず、マイクでユーザの発した音声をPC100へ入力し、その音声を音声認識ソフトで認識した結果の読みを取り込んで処理する場合にも本発明が適用可能なことを、当業者なら容易に理解できるであろう。
2) In the above-described embodiment, an example in which kana-kanji conversion processing is performed on the reading “nothing” input at the position of the
3)上述の実施形態では、日本語を処理する日本語入力システムの例を示したが、本発明は日本語に限ることはない。同音異義語を有する各種の言語にも本発明が適用可能なことを、当業者なら容易に理解できるであろう。 3) In the above-described embodiment, an example of a Japanese input system that processes Japanese is shown, but the present invention is not limited to Japanese. Those skilled in the art will readily understand that the present invention is applicable to various languages having homonyms.
4)上述の実施形態では、日本語入力システムを汎用のパーソナルコンピュータで実現する例を示したが、パーソナルコンピュータ以外の情報処理装置として、ワークステーション、サーバ、PDA(Personal Digital Assistant)、携帯電話及び各種のプログラム実行可能なその他情報処理装置に本発明を適用可能である。 4) In the above-described embodiment, an example in which a Japanese input system is realized by a general-purpose personal computer has been described. However, as an information processing device other than a personal computer, a workstation, a server, a PDA (Personal Digital Assistant), a mobile phone, The present invention can be applied to other information processing apparatuses capable of executing various programs.
5)本発明で言う記録媒体とは、CPUが実行するプログラムを記録しておき、デバイスにより読み取り可能な媒体を言う。記録媒体としては、CD−ROM以外に、IC(integrated circuits)メモリ、HD,フロッピー(登録商標)ディスク、光磁気ディスク(MO)など周知の記録媒体を使用することができる。
また、記録媒体に記録されるプログラムは、プログラムそのもの、圧縮したもの、暗号化したもののいずれでもよく、これらのデータはすべて本発明のプログラムの概念の中に含まれる。
さらにインターネット、LAN(local area network)などのネットワークあるいは信号線を介して、プログラムを情報処理装置に転送(ダウンロード)する場合には、転送元の装置の上記プログラムを記憶する記録媒体または記憶デバイスが本発明の記録媒体に該当する。
5) The recording medium referred to in the present invention refers to a medium in which a program executed by the CPU is recorded and can be read by the device. As the recording medium, in addition to the CD-ROM, a known recording medium such as an IC (integrated circuits) memory, an HD, a floppy (registered trademark) disk, a magneto-optical disk (MO) can be used.
The program recorded on the recording medium may be any of the program itself, a compressed program, and an encrypted program, and all these data are included in the concept of the program of the present invention.
Further, when transferring (downloading) a program to an information processing apparatus via a network such as the Internet or a LAN (local area network) or a signal line, a recording medium or storage device for storing the program of the transfer source apparatus is provided. This corresponds to the recording medium of the present invention.
6)上述の実施形態は本発明の例示のために説明したが、上述の実施形態の他にも変形が可能である。その変形が特許請求の範囲で述べられている本発明の技術思想に基づく限り、その変形は本発明の技術的範囲内となる。 6) Although the above-described embodiment has been described for the purpose of illustrating the present invention, modifications can be made in addition to the above-described embodiment. As long as the modification is based on the technical idea of the present invention described in the claims, the modification is within the technical scope of the present invention.
100 パーソナルコンピュータ
101 CPU
102 システムメモリ
103 モデム
104 CD−ROMドライブ
105 CD−ROM
106 キーボード
107 ディスプレイ
108 HD
109 OS
110 種々のアプリケーションプログラム
111 種々のプログラムモジュール
112 プログラムデータ
114 日本語入力プログラム
115 マウス
116 システムバス
117 マイク
120 広域ネットワーク
121 WWWサーバ
114 辞書サーチモジュールa
114b LMモジュール
201 入力された読み
202 システム辞書ファイル
202a システム辞書データ
203 ユーザ辞書ファイル
203a 固有名詞辞書データ
203b E(電子)メール応答辞書データ
203c 略語辞書データ
203d ドキュメントフォルダ辞書データ
203e 新語辞書データ
204 学習結果ファイル
204a 学習結果データ
205 表記出力
401 Eメール応答文書
401a 元のメッセージ
402 フォルダ
402a、402b 文書ファイル
501a、501b、501c、501x 存在期間501a
100
102
109 OS
110
Claims (18)
1つ又は複数のデータセットをレイヤ別に記憶した記憶手段であって、前記データセットは1つ又は複数のデータレコードを含み、前記データレコードは読みに対応した表記を取得するためのデータ定義を含む記憶手段と、
文章を解析し、該文章が含む語の読みに対応した前記データ定義を含むデータレコードを抽出する抽出手段と、
前記抽出手段によって抽出された前記データレコードが、前記1つ又は複数のデータセットのいずれかに含まれるか否かを判定する抽出データ判定手段と、
前記抽出データ判定手段によって、抽出された前記データレコードが前記1つ又は複数のデータセットのいずれにも含まれないとの判定がされた場合、抽出された前記データレコードを含む新たなデータセットを生成し、当該生成された新たなデータセットを前記記憶手段の空きレイヤに記憶するデータ生成手段と
を備えたことを特徴とする言語入力システム。 A language input system for displaying one or more notations for an input reading in a predetermined language and selecting one notation from the displayed notations,
Storage means for storing one or more data sets by layer, wherein the data set includes one or more data records, and the data records include a data definition for obtaining a notation corresponding to reading. Storage means;
Extracting means for analyzing a sentence and extracting the data record including the data definition corresponding to the reading of the word included in the sentence;
Extracted data determination means for determining whether the data record extracted by the extraction means is included in any of the one or more data sets;
If the extracted data determination means determines that the extracted data record is not included in any of the one or more data sets, a new data set including the extracted data record is obtained. A language input system comprising: data generation means for generating and storing the generated new data set in an empty layer of the storage means.
前記データ生成手段は、前記フォーマットを有する前記新たなデータセットを生成する
ことを特徴とする請求項1に記載の言語入力システム。 Each of the one or more data sets has a common format;
The language input system according to claim 1, wherein the data generation unit generates the new data set having the format.
前記抽出手段によって抽出された前記データレコードは、前記文章が含む語の読みと該読みに対応した表記とを含む
ことを特徴とする請求項1又は2に記載の言語入力システム。 The data record included in the one or more data sets stored in the storage means includes a reading and a notation corresponding to the reading;
The language input system according to claim 1, wherein the data record extracted by the extraction unit includes a reading of a word included in the sentence and a notation corresponding to the reading.
前記データ生成手段は、前記新たなデータセットに存在期間を割り当てる
ことを特徴とする請求項1乃至3のいずれかに記載の言語入力システム。 Each of the one or more data sets stored in the storage means has a lifetime.
The language input system according to any one of claims 1 to 3, wherein the data generation unit assigns an existing period to the new data set.
前記期間判定手段によって存在期間が満了と判定されたデータセットを前記記憶手段から削除し、当該削除されたデータセットが記憶されていたレイヤを空きレイヤとするデータ消去手段と
をさらに備えたことを特徴とする請求項4に記載の言語入力システム。 Period determination means for determining the existence period of each of the one or more data sets stored in the storage means;
A data erasure unit that deletes the data set whose existence period is determined to be expired by the period determination unit from the storage unit, and sets the layer in which the deleted data set is stored as an empty layer. The language input system according to claim 4, wherein:
ことを特徴とする請求項1乃至5のいずれかに記載の言語入力システム。 The language input system according to claim 1, wherein the sentence is an original message from an e-mail sender in an e-mail response document.
ことを特徴とする請求項1乃至5のいずれかに記載の言語入力システム。 The language input system according to claim 1, wherein the sentence is a content of a document file in a specific folder.
ことを特徴とする請求項1乃至7のいずれかに記載の言語入力システム。 The language input system according to claim 1, wherein the predetermined language is Japanese.
前記言語入力システムは、1つ又は複数のデータセットをレイヤ別に記憶した記憶手段であって、前記データセットは1つ又は複数のデータレコードを含み、前記データレコードは読みに対応した表記を取得するためのデータ定義を含む記憶手段を有し、前記方法は、
抽出手段が、文章を解析し、該文章が含む語の読みに対応した前記データ定義を含むデータレコードを抽出する抽出ステップと、
前記抽出ステップにおいて抽出された前記データレコードが、前記1つ又は複数のデータセットのいずれかに含まれるか否かを抽出データ判定手段が判定する抽出データ判定ステップと、
前記抽出データ判定ステップにおいて、抽出された前記データレコードが前記1つ又は複数のデータセットのいずれにも含まれないとの判定がされた場合、データ生成手段が、抽出された前記データレコードを含む新たなデータセットを生成し、当該生成された新たなデータセットを前記記憶手段の空きレイヤに記憶するデータ生成ステップと
を備えることを特徴とする言語入力システムの処理方法。 A language input system processing method for displaying one or more notations for an input reading in a predetermined language and selecting one notation from the displayed notations,
The language input system is storage means for storing one or more data sets for each layer, and the data set includes one or more data records, and the data records obtain a notation corresponding to reading. Storage means including a data definition for the method,
An extracting step of extracting the data record including the data definition corresponding to the reading of the word included in the sentence by analyzing the sentence;
An extracted data determination step in which an extracted data determination means determines whether the data record extracted in the extraction step is included in any of the one or more data sets;
In the extracted data determination step, when it is determined that the extracted data record is not included in any of the one or more data sets, a data generation unit includes the extracted data record A language generation system processing method comprising: a data generation step of generating a new data set and storing the generated new data set in an empty layer of the storage means.
前記データ生成ステップにおいて、前記フォーマットを有する前記新たなデータセットを生成する
ことを特徴とする請求項9に記載の言語入力システムの処理方法。 Each of the one or more data sets has a common format;
The processing method of the language input system according to claim 9, wherein in the data generation step, the new data set having the format is generated.
前記抽出ステップにおいて抽出された前記データレコードは、前記文章が含む語の読みと該読みに対応した表記とを含む
ことを特徴とする請求項9又は10に記載の言語入力システムの処理方法。 The data record included in the one or more data sets stored in the storage means includes a reading and a notation corresponding to the reading;
The processing method of the language input system according to claim 9 or 10, wherein the data record extracted in the extraction step includes a reading of a word included in the sentence and a notation corresponding to the reading.
前記データ生成ステップにおいて、前記新たなデータセットに存在期間を割り当てる
ことを特徴とする請求項9乃至11のいずれかに記載の言語入力システムの処理方法。 Each of the one or more data sets stored in the storage means has a lifetime.
The language input system processing method according to claim 9, wherein an existing period is assigned to the new data set in the data generation step.
データ消去手段が、前記期間判定ステップにおいて存在期間が満了と判定されたデータセットを前記記憶手段から削除し、当該削除されたデータセットが記憶されていたレイヤを空きレイヤとするデータ消去ステップと
をさらに備えることを特徴とする請求項12に記載の言語入力システムの処理方法。 A period determination step in which the period determination unit determines the existence period of each of the one or more data sets stored in the storage unit;
A data erasing step, wherein the data erasing step deletes the data set whose existence period is determined to have expired in the period determining step from the storage means, and sets the layer in which the deleted data set is stored as an empty layer; The language input system processing method according to claim 12, further comprising:
ことを特徴とする請求項9乃至13のいずれかに記載の言語入力システムの処理方法。 The processing method of the language input system according to claim 9, wherein the sentence is an original message from an e-mail sender in an e-mail response document.
ことを特徴とする請求項9乃至13のいずれかに記載の言語入力システムの処理方法。 The processing method of the language input system according to claim 9, wherein the sentence is a content of a document file in a specific folder.
ことを特徴とする請求項9乃至15のいずれかに記載の言語入力システムの処理方法。 The processing method of the language input system according to claim 9, wherein the predetermined language is Japanese.
A program for causing a computer to execute each step of the processing method of the language input system according to any one of claims 9 to 16.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005185767A JP2007004636A (en) | 2005-06-24 | 2005-06-24 | Language input system, its processing method, recording medium and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005185767A JP2007004636A (en) | 2005-06-24 | 2005-06-24 | Language input system, its processing method, recording medium and program |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2007004636A true JP2007004636A (en) | 2007-01-11 |
Family
ID=37690176
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2005185767A Pending JP2007004636A (en) | 2005-06-24 | 2005-06-24 | Language input system, its processing method, recording medium and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2007004636A (en) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011175481A (en) * | 2010-02-24 | 2011-09-08 | Kyocera Corp | Electronic apparatus, character conversion method and character conversion program |
KR101554292B1 (en) | 2007-04-09 | 2015-09-30 | 구글 인코포레이티드 | Input Method Editor User Profiles |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0973449A (en) * | 1995-09-06 | 1997-03-18 | Canon Inc | Electronic dictionary and its processing method |
JP2002157241A (en) * | 2000-09-06 | 2002-05-31 | Fujitsu Ltd | Dictionary preparing device |
JP2003302989A (en) * | 2002-04-11 | 2003-10-24 | Denso Corp | Information terminal, server, and program |
-
2005
- 2005-06-24 JP JP2005185767A patent/JP2007004636A/en active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0973449A (en) * | 1995-09-06 | 1997-03-18 | Canon Inc | Electronic dictionary and its processing method |
JP2002157241A (en) * | 2000-09-06 | 2002-05-31 | Fujitsu Ltd | Dictionary preparing device |
JP2003302989A (en) * | 2002-04-11 | 2003-10-24 | Denso Corp | Information terminal, server, and program |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101554292B1 (en) | 2007-04-09 | 2015-09-30 | 구글 인코포레이티드 | Input Method Editor User Profiles |
JP2011175481A (en) * | 2010-02-24 | 2011-09-08 | Kyocera Corp | Electronic apparatus, character conversion method and character conversion program |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8031943B2 (en) | Automatic natural language translation of embedded text regions in images during information transfer | |
JP3272288B2 (en) | Machine translation device and machine translation method | |
US5991719A (en) | Semantic recognition system | |
TWI510965B (en) | Input method editor integration | |
US20050155017A1 (en) | System and method for automatic natural language translation during information transfer | |
KR20100004652A (en) | Language translator having an automatic input/output interface and method of using same | |
KR20040076213A (en) | Methods and systems for language translation | |
JP2006053906A (en) | Efficient multi-modal method for providing input to computing device | |
CN110968245B (en) | Operation method for controlling office software through voice | |
WO2004001570A1 (en) | Method for describing existing data by a natural language and program for that | |
US20100076749A1 (en) | Language processing system, language processing method, language processing program, and recording medium | |
JP2008090624A (en) | Input character edition device, input character edition method, input character edition program and recording medium | |
CN112149403A (en) | Method and device for determining confidential text | |
US20050165712A1 (en) | Method for operating software object using natural language and program for the same | |
JP2007004636A (en) | Language input system, its processing method, recording medium and program | |
US20020007382A1 (en) | Computer having character input function,method of carrying out process depending on input characters, and storage medium | |
JP2005128955A (en) | Information processing method, storage medium, and program | |
JP2003296327A (en) | Translation server, genre-classified online machine translation method, and program therefor | |
JP4000332B2 (en) | Information retrieval apparatus and computer-readable recording medium recording a program for causing a computer to function as the apparatus | |
JP2000285112A (en) | Device and method for predictive input and recording medium | |
JP3410446B2 (en) | Language input system, processing method thereof, and recording medium | |
JP5079259B2 (en) | Language input system, processing method thereof, recording medium, and program | |
JP7483085B1 (en) | Information processing system, information processing device, information processing method, and program | |
JP2024027395A (en) | Dictionary registration program, dictionary registration method and information processor | |
JP2004287710A (en) | Language processing system |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20080530 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20091126 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20091201 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100301 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20100709 |