JP4960636B2 - かな漢字変換装置、文字列に単一ルビを与える方法、コンピュータプログラムおよびコンピュータ読み取り可能な記憶媒体 - Google Patents

かな漢字変換装置、文字列に単一ルビを与える方法、コンピュータプログラムおよびコンピュータ読み取り可能な記憶媒体 Download PDF

Info

Publication number
JP4960636B2
JP4960636B2 JP2006023325A JP2006023325A JP4960636B2 JP 4960636 B2 JP4960636 B2 JP 4960636B2 JP 2006023325 A JP2006023325 A JP 2006023325A JP 2006023325 A JP2006023325 A JP 2006023325A JP 4960636 B2 JP4960636 B2 JP 4960636B2
Authority
JP
Japan
Prior art keywords
reading
character string
ruby
readings
computer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2006023325A
Other languages
English (en)
Other versions
JP2007206860A (ja
Inventor
理英 前田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Corp
Original Assignee
Microsoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Corp filed Critical Microsoft Corp
Priority to JP2006023325A priority Critical patent/JP4960636B2/ja
Publication of JP2007206860A publication Critical patent/JP2007206860A/ja
Application granted granted Critical
Publication of JP4960636B2 publication Critical patent/JP4960636B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Document Processing Apparatus (AREA)

Description

本発明はかな漢字変換装置、文字列に単一ルビを与える方法、コンピュータプログラムおよびコンピュータ読み取り可能な記憶媒体に関し、より詳細には、ビタビサーチを使用して文字列に単一ルビを与えるかな漢字変換装置、文字列に単一ルビを与える方法、コンピュータプログラムおよびコンピュータ読み取り可能な記憶媒体に関する。
かな漢字変換プログラムでは、従来から文字列にふりがな (ルビ) を振る機能が提供されている。具体的な方法としては、例えば文書処理プログラムの実行中にテキストからルビを振る文字列を選択し、「ルビ」機能を呼び出すと、かな漢字変換装置が入力ボックスを表示装置に表示する。ユーザはこの入力ボックスに、選択した文字に振るルビを入力する。
このような機能の一つに、指定された文字列に単一ルビを振る機能がある。単一ルビとは、印刷技術上、単一文字のルビテキストに結び付けられたルビのことをいう(例えば、非特許文献1参照)。これに対し、単語に結び付けられた複数のルビを複合ルビという。
http://www.w3.org/TR/2001/REC-ruby-20010531/
しかしながら、与えられた任意の文字列に対して、最も可能性の高い単一ルビを決定するための安定した方法は存在しない。従来のかな漢字変換プログラムでは、単一ルビを振るべき文字を発見し、および発見した文字列に振るべき読みを入力する、というユーザの発見に基づく特別な方法を行っている。しかしながら、このような手法では、単一ルビの決定結果の品質を保証することは困難であり、また例外的な単語に対処する手当てが必要であるという問題があった。
本発明はこのような問題に鑑みてなされたものであり、その目的とするところは、文字列に可能性の高い単一ルビを与えることができるかな漢字変換装置、文字列に単一ルビを与える方法、コンピュータプログラムおよびコンピュータ読み取り可能な記憶媒体を提供することにある。
本発明では、ビタビサーチと、読みのラティスから正しい経路を選択する新しい方法を使用する。本発明では、読みを検証することにより、入力文字列中の読みの境界を与え、経路の中のノードの数の合計により、ビタビサーチに必須の点数を計算する。
本発明の一態様によれば、本発明に係るかな漢字変換装置は、表記と読みとを関連付けた辞書を記憶した記憶手段と、前記辞書を検索して、文字列に含まれた文字または語の読みを抽出する抽出手段と、前記辞書を検索して、前記文字列全体の読みを抽出する逆変換手段と、前記抽出手段により抽出された読みを組み合わせて、該組み合わされた読みの経路から、前記逆変換手段により抽出された文字列全体の読みと一致した読みの経路を選択することにより、可能な読みのラティスを構築する構築手段と、前記可能な読みのラティスに含まれた読みの経路内で読みを区切るノードの合計に基づいて、前記経路の各々に点数を付与する採点手段と、前記採点手段により付与された点数が最高である経路を選択する選択手段と、前記選択手段により選択された経路に含まれた読みの各々に基づき単一ルビを生成する生成手段とを備える。
ここで、前記抽出手段は、前記文字列を分割して文字または語の組を作成する作成手段と、前記分割された文字または語の各々について前記辞書を検索する検索手段とを含むものとすることができる。
ここで、前記作成手段は、前記文字列を異なる位置で分割した文字または語の複数の組を作成する手段を含むものとすることができる。
また、前記生成手段は、前記選択手段により選択された経路に含まれた読みのうち、1文字に対応する読みについてのみ単一ルビを生成するものとすることができる。
本発明の別の態様によれば、本発明に係る文字列に単一ルビを与える方法は、コンピュータの処理装置が、記憶装置に記憶された辞書を検索して、文字列に含まれた文字または語の読みを抽出するステップと、前記辞書を検索して、前記文字列全体の読みを抽出するステップと、前記抽出された読みを組み合わせて、該組み合わされた読みの経路から、前記抽出された文字列全体の読みと一致した読みの経路を選択することにより、可能な読みのラティスを構築するステップと、前記可能な読みのラティスに含まれた読みの経路内で読みを区切るノードの合計に基づいて、前記経路の各々に点数を付与するステップと、前記付与された点数が最高である経路を選択するステップと、前記選択された経路に含まれた読みの各々に基づき単一ルビを生成するステップとを備える。
ここで、前記抽出するステップは、前記文字列を分割して文字または語の組を作成するステップと、前記分割された文字または語の各々について前記辞書を検索するステップとを含むものとすることができる。
ここで、前記作成するステップは、前記文字列を異なる位置で分割した文字または語の複数の組を作成するステップを含むものとすることができる。
また、前記生成するステップにおいて、前記選択された経路に含まれた読みのうち、1文字に対応する読みについてのみ単一ルビを生成するものとすることができる。
本発明の別の態様によれば、本発明に係るコンピュータプログラムは、コンピュータを上記かな漢字変換装置として機能させる。
本発明の別の態様によれば、本発明に係るコンピュータ読み取り可能な記憶媒体は、上記コンピュータプログラムを記憶する。
本発明によれば、従来文法的には単一ルビを与えることが可能であるにも関わらず、実際に単一ルビを与えることができなかった語に対しても、正しい単一ルビを与えることが可能となる。
また、文法的に単一ルビを与えることができない語に対しても、正しいルビを与えることを保証することができる。
また、本発明によれば、読みのラティスに含まれた各経路のノードを計算するという単純な処理により単一ルビを与えることができるので、従来のかな漢字変換装置に容易に単一ルビを与える機能を実装することが可能である。
以下、図面を参照し、本発明の実施の形態について詳細に説明する。
例示的ネットワーク環境
本発明の実施形態によれば、本明細書に記述された方法は、単一でスタンド・アロンのコンピュータ・システム上で実行することができるが、典型的には分散コンピュータ・ネットワークを形成するために相互に連結した多数のコンピュータ・システム上で実行することもできる。本発明を実施するための環境400が図1に示されている。環境400は、主要なコンピュータ・システムと考えられるコンピュータ・システム410を有する。本明細書で使用されるように、「コンピュータ・システム」は広く解釈され、「テキスト、グラフィックス、シンボル、オーディオ、ビデオおよび/または数を表示し操作するためのプログラムを実行する1つまたは複数の装置またはマシン」として定義される。
本発明は、多数の他の多目的または特定目的のコンピュータ・システム環境または構成で動作可能である。本発明で使用するのに適切な可能性のある周知の計算システム、システム環境および/または構成の例は、パソコン、サーバ・コンピュータ、ハンドヘルド装置あるいはラップトップ装置、タブレット装置、マルチプロセッサ・システム、マイクロプロセッサベースのシステム、セットトップボックス、プログラム可能な家電製品、ネットワークPC、ミニコンピュータ、メインフレーム・コンピュータ、上記のシステムのうちのいずれかを含む分散コンピューティング環境または装置等を含むが、これに限定されない。
本発明はコンピュータによって実行されるプログラム・モジュールなどのコンピュータ実行可能命令の一般的な文脈において記述することができる。一般に、プログラム・モジュールは特定のタスクを実行するかまたは抽象データ型を実装するルーチン、プログラム、オブジェクト、コンポーネント、データ構造などを含む。本発明は、ネットワークを介してリンクされるリモート処理装置によってタスクが実行される分散コンピューティング環境において実行することもできる。分散コンピューティング環境では、プログラム・モジュールが、メモリ記憶装置を含むローカルおよびリモートのコンピュータ記憶媒体に配置される場合がある。
図1を参照すると、本発明を実行するための例示的なシステムは、コンピュータ410の形態で多目的コンピューティングデバイスを含む。コンピュータ410のコンポーネントは、処理装置420、システムメモリ430、および処理装置420にシステムメモリを含む種々のシステム・コンポーネントを結合可能なシステム・バス421を含むことができるがこれには限定されない。システム・バス421は種々のバス・アーキテクチャのうちの任意のものを使用するメモリ・バスまたはメモリ・コントローラ、周辺バスおよびローカルバスを含むいくつかのタイプのバス構造のいずれかとすることができる。限定ではなく例として、そのようなアーキテクチャは、業界標準アーキテクチャ(ISA)バス、マイクロチャネル・アーキテクチャ(MCA)バス、エンハンストISA(EISA)バス、ビデオエレクトロニクス標準化協会(VESA)ローカルバス、グラフィック専用高速バス (AGP)およびMezzanineバスとして知られている周辺コンポーネント相互接続(PCI)バスを含む。
コンピュータ410は典型的には種々のコンピュータ可読媒体を含む。コンピュータ可読媒体はコンピュータ410によってアクセスすることができ、揮発性媒体および不揮発性媒体並びに取り外し可能媒体および固定媒体の両方を含む、全ての利用可能な媒体とすることが可能である。限定ではなく例として、コンピュータ可読媒体はコンピュータ記憶媒体および通信媒体を含むことができる。コンピュータ記憶媒体は、コンピュータ読み取り可能命令、データ構造、プログラム・モジュールまたは他のデータなどの情報の記憶のための任意の方法または技術において実装される揮発性および不揮発性、取り外し可能媒体および固定媒体の両方を含む。コンピュータ記憶媒体は、RAM、ROM、EEPROM、フラッシュ・メモリまたは他のメモリ技術、CD-ROM、ディジタル多用途ディスク(DVD)または他の光ディスク記憶装置、磁気カセット、磁気テープ、磁気ディスク記憶装置または他の磁気記憶装置、または所望の情報を格納するために使用することができ、コンピュータ410によってアクセス可能な任意の他の媒体を含むが、これには限定されない。通信媒体は典型的にはコンピュータ読み取り可能命令、データ構造、プログラム・モジュールまたは他のデータを搬送波または他の移送メカニズムなどの変調されたデータ信号で具体化し、どのような情報送達媒体も含む。用語「変調されたデータ信号」は、信号中の情報をコード化するような方法で設定または変更されたその特性の1つまたは複数を有する信号を意味する。限定ではなく例として、通信媒体は、有線ネットワークまたは直接有線接続などの有線媒体、および音響、RF、赤外線および他の無線媒体などの無線媒体を含む。上記のいずれかの組み合わせもまたコンピュータ読み取り可能媒体の範囲内に含まれるべきである。
システムメモリ430は、コンピュータ記憶媒体を、揮発性および/または読み出し専用メモリ(ROM)431およびランダム・アクセス・メモリ(RAM)432などの不揮発性メモリの形態で含む。起動時などにコンピュータ410内の要素間の情報を転送することを支援する基本ルーチンを含む基本入出力システム433(BIOS)は、典型的にはROM 431に格納される。RAM 432は典型的には処理装置420により即時にアクセス可能なおよび/または目下動作しているデータおよび/またはプログラム・モジュールを含む。限定ではなく例として、図1はオペレーティング・システム434、アプリケーション・プログラム435、他のプログラム・モジュール436およびプログラム・データ437を例示する。
コンピュータ410はさらに他の取り外し可能/固定の、揮発性/不揮発性のコンピュータ記憶媒体を含んでもよい。単に例示として、図1は、固定の不揮発性磁気媒体の読み書きを行うハードディスクドライブ441、取り外し可能な不揮発性磁気ディスク452の読み書きを行う磁気ディスクドライブ451、およびCD-ROMまたは他の光学媒体のような取り外し可能な不揮発性光ディスク456の読み書きを行う光ディスクドライブ455を例示する。典型的な操作環境の中で使用することができる他の取り外し可能/固定の揮発性/不揮発性のコンピュータ記憶媒体は、これには限定されないが、磁気テープカセット、フラッシュ・メモリ・カード、ディジタル多用途ディスク、デジタルビデオ・テープ、ソリッドステートRAM、ソリッドステートROMなどを含む。ハードディスクドライブ441は、典型的には固定不揮発性メモリ・インタフェース440のようなインタフェースを介してシステム・バス421に接続される。また、磁気ディスクドライブ451および光ディスクドライブ455はインタフェース450などの取り外し可能メモリ・インタフェースによって典型的にはシステム・バス421に接続される。
上で議論され、図1に例示したドライブおよびそれらの関連するコンピュータ記憶媒体は、コンピュータ410用のコンピュータ読み取り可能命令、データ構造、プログラム・モジュールおよび他のデータのストレージを提供する。図1において、例えば、ハードディスクドライブ441はオペレーティング・システム444、アプリケーション・プログラム445、他のプログラム・モジュール446およびプログラム・データ447のストレージとして示されている。これらのコンポーネントはオペレーティング・システム434、アプリケーション・プログラム435、他のプログラム・モジュール436およびプログラム・データ437と同じであることも異なることも可能であることに留意されたい。オペレーティング・システム444、アプリケーション・プログラム445、他のプログラム・モジュール446およびプログラム・データ447は、最低限それらが異なるコピーであることを示すために本明細書では異なる符号を与えている。ユーザは、タブレット(電子ディジタイザ)464、マイクロホン463、キーボード462およびマウス、トラックボールまたはタッチ・パッドと一般に呼ばれるポインティングデバイス461などの入力装置を介してコンピュータ410へコマンドおよび情報を入力してもよい。他の入力装置(図示せず)はジョイスティック、ゲーム・パッド、衛星放送アンテナ、スキャナなどを含むことができる。これらおよび他の入力装置は、しばしばシステム・バスに結合されたユーザ入力インタフェース460を介して処理装置420に接続されるが、パラレルポート、ゲームポートまたはユニバーサル・シリアル・バス(USB)などの他のインタフェースおよびバス構造によって接続してもよい。モニタ491または他のタイプのディスプレイ装置も、ビデオインタフェース490のようなインタフェース経由でシステム・バス421に接続される。モニタ491も、タッチ・スクリーンインタフェース492などのインタフェース経由でコンピュータ・システム410へ手書きなどのディジタル化された入力値を入力することができるタッチ・スクリーン・パネル493などと統合される場合がある。モニタおよび/またはスクリーン・パネルはコンピューティングデバイス410が組み込まれた筐体に物理的に結合することができ、そこではタッチ・スクリーン・パネル493はタブレット464として実質的に機能することに留意されたい。さらに、コンピューティングデバイス410などのコンピュータは、周辺出力インタフェース494などを通じて接続することができるスピーカ495およびプリンタ496のような他の周辺出力装置を含むこともできる。
コンピュータ410は、リモートコンピュータ480などの1台または複数台のリモートのコンピュータへの論理的な接続を使用してネットワーク化された環境において動作することができる。リモートコンピュータ480はパソコン、サーバ、ルータ、ネットワークPC、ピア装置または他の共通のネットワーク・ノードとすることができ、図1にメモリ記憶装置481のみを図示したが、典型的にはコンピュータ410に関して上述した要素の多くまたは全てを含む。図1に示した論理接続はローカル・エリア・ネットワーク(LAN)471および広域ネットワーク(WAN)473を含むが、さらに他のネットワークを含んでもよい。そのようなネットワーク環境は、オフィス、企業全体のコンピュータ・ネットワーク、イントラネットおよびインターネットで普通である。
LANネットワーキング環境の中で使用されるとき、コンピュータ410はネットワークインタフェースまたはアダプタ470を介してLAN 471に接続される。WANネットワーキング環境の中で使用されるとき、コンピュータ410は典型的にはモデム472またはインターネットのようなWAN 473の上の通信を確立するための他の手段を含む。モデム472は内蔵でも外付けでもよいが、ユーザ入力インタフェース460または他の適切なメカニズム経由でシステム・バス421に接続することができる。ネットワーク化された環境では、コンピュータ410またはその部分に関して描かれたプログラム・モジュールを、リモートのメモリ記憶装置に格納することができる。限定ではなく例として、図1は、リモートのアプリケーション・プログラム485をメモリ記憶装置481上に常駐するものとして示している。図示のネットワーク接続が例示であり、コンピュータ間の通信を確立する他の手段を使用してもよいことは理解されるであろう。
このコンピュータ環境を念頭において、本発明の実施形態は、その実施形態(即ち図2に示した各機能が実現する形態)を具体化するプロセスを実装するために実行されている論理演算に関して記述される。
図2は、本発明に係るかな漢字変換装置の機能構成の一例を示すブロック図である。
かな漢字変化装置200は、文書ファイルを処理する文書処理部202、表計算を行うための表計算部204、描画機能を備えたプレゼンテーション資料作成部206、かな漢字変換部208、記憶装置210、表示制御部212、表示装置214および入力部216を含む。
文書処理部202、表計算部204、プレゼンテーション資料作成部206は、それぞれ表示制御部212を介して表示装置214に編集すべき文書、表および資料を表示する。ユーザは入力部216を介して、表示された文書、表および資料に文字列を入力することができる。入力部216から文字の入力、入力した文字列の変換、あるいはルビの付加等が指示された場合、文書処理部202、表計算部204、あるいはプレゼンテーション資料作成部206はかな漢字変換部208に処理を要求する。記憶装置210には表記と読みとを関連付けた辞書が記憶されており、かな漢字変換部208は辞書を検索してかな漢字変換処理を行うことができる。指示の内容がルビの付加である場合、かな漢字変換部208の逆変換部211において入力された文字列全体の逆変換が行われ、単一ルビ処理部209が呼び出される。
図3は、単一ルビ処理部209の機能構成の一例を示すブロック図である。
単一ルビ処理部209は、文字列取得部302、読み抽出部304、ラティス構築部306、採点部308、選択部310および単一ルビ生成部312を含む。
文字列取得部302では、入力部216により選択された文字列および逆変換部211により逆変換された読みが取得される。読み抽出部304では辞書が検索され、取得された文字列に含まれた文字または語の読みが抽出される。ラティス構築部306では、読み抽出部304により抽出された読みを組み合わせて複数の経路を作成し、逆変換された読みと一致しない読みの経路を削除することにより、可能な読みのラティスを構築する。採点部308では、ラティス構築部306により構築された可能な読みのラティスに含まれた読みの経路の各々に点数が付与される。ここで、付与される点数は、経路に含まれた読みと読みとを区切るノードの合計に基づく。
経路選択部310では、採点部308により付与された点数が最高である経路が選択される。単一ルビ生成部312では、経路選択部310により選択された経路中の読みを含む単一ルビが生成される。
次に、図4のフローチャートを参照し、本実施形態に係るかな漢字変換装置により実行される文字列に単一ルビを与える方法の手順について説明する。
入力部216から入力した文字列の変換、あるいはルビの付加が指示された場合、かな漢字変換処理部209は逆変換部211において辞書を検索し、選択された文字列の表記に対応する読みを抽出する(S402)。これは、ルビを振るために通常行われる文字列全体の逆変換である。次いで、単一ルビ処理部209に選択された文字列の表記と与えられた読みとを渡して、単一ルビの生成処理を要求する(S404)。
単一ルビ処理部209は、選択された文字列を種々の位置で分割して、文字または語の組を複数作成する。そして、記憶装置210に記憶された辞書を検索し、分割された個々の文字または語の読みを抽出する(S406)。これは、単一ルビを振るために行う文字または語単位での逆変換である。
次いで、抽出された読みを組み合わせて複数の経路を作成する。ここで、作成された読みの経路の各々と、ステップS402で逆変換された読みとを比較し、一致しない経路を削除する。このようにして、組み合わされた読みの経路から、逆変換された文字列全体の読みと一致した読みの経路が選択されることにより、可能な読みのラティスが構築される(S408)。
次いで、残された読みのラティスに含まれたの経路の各々に点数を付与する(S410)。
そして、付与された点数が最高である経路を選択し(S412)、選択された経路に含まれた読みを含む単一ルビを生成し、この単一ルビを返す(S414)。かな漢字変換部208は返された単一ルビを表示制御部212に渡す。表示制御部212は、受け取った単一ルビを選択された文字列に隣接して表示させる。
図5ないし図7は、本実施形態に係る文字列に単一ルビを与える方法を示す図である。本実施形態では、文書処理部202が、ユーザから文字列「届出内容」にルビを振るよう指示を受けた場合の処理について説明する。
従来は、辞書において表記「届出」に「とどけで」が関連付けられ、表記「内容」に「ないよう」が関連付けられている場合、
Figure 0004960636
のように、表記「届」にルビ「とど」を振り、表記「出」にルビ「けで」を振ってしまう。ユーザが文字「届」「出」をそれぞれ選択して従来技術で説明したように単一ルビを振ることは可能であるが、このような処理は極めて煩雑である。
本実施形態において、かな漢字変換部208は、辞書を検索して文字列「届出内容」を逆変換し、この文字列の表記に読み「とどけでないよう」を与える。この表記と読みが、単一ルビ処理部209に渡される。単一ルビ処理部209は、文字列「届出内容」を、「届」「出」「内」「容」「届」「出」「内容」のように複数の位置で文字または語を分割した複数の組を作成して、個々の文字または語の読みを抽出する。そして、抽出した読みを組み合わせて複数の経路を作成する。
図5は、単一ルビ処理部209により作成された読みの経路の例を示す。同図において、<s>は選択された文字列の開始記号、</s>は選択された文字列の終了記号を示す。読みの経路の各々は、かな漢字変換部208から受け取った読み「とどけでないよう」と比較され、一致しない経路、例えば「<s>−とど−で−ない−よう−</s>」や「<s>−とど−だ−ない−よう−</s>」等は削除される。このようにして、図6に示す経路、すなわち「<s>−とどけ−で−ない−よう−</s>」「<s>−とどけ−で−ないよう−</s>」「<s>−とどけで−ない−よう−</s>」および「<s>−とどけで−ないよう−</s>」からなる可能な読みのラティスが構築される。
次いで、各経路に含まれるノード、すなわち読みの区切りの数を計算し、点数を与える。点数は、「<s>−とどけ−で−ない−よう−</s>」が5点、「<s>−とどけ−で−ないよう−</s>」が4点、「<s>−とどけで−ない−よう−</s>」が4点、「<s>−とどけで−ないよう−</s>」が3点となる。
このようにして、図7に示すように経路「とどけ−で−ない−よう−</s>」が選択されることにより、文字列「届出内容」に以下のような単一ルビを振ることができる。
Figure 0004960636
図8ないし図10は、本実施形態に係る文字列に単一ルビを与える方法の別の例を示す図である。本実施形態では、文書処理部202が、ユーザから文字列「届け出内容」にルビを振るよう指示を受けた場合の処理について説明する。
本実施形態において、かな漢字変換部208は、辞書を検索して文字列「届け出内容」を逆変換し、この文字列の表記に読み「とどけでないよう」を与える。この表記と読みが、単一ルビ処理部209に渡される。
図8は、単一ルビ処理部209により作成された読みの経路の例を示す。経路の各々は、かな漢字変換部208から受け取った読み「とどけでないよう」とが比較され、一致しない経路、例えば「<s>−とどけ−け−で−ない−よう−</s>」や「<s>−とど−け−しゅつ−ない−よう−</s>」等が削除される。このようにして、図9に示す経路、すなわち「<s>−とど−け−で−ない−よう−</s>」および「<s>−とど−け−で−ないよう−</s>」からなる可能な読みのラティスが構築される。
次いで、各経路に含まれるノード、すなわち読みの区切りの数を計算し、点数を与える。点数は、「<s>−とど−け−で−ない−よう−</s>」が6点、「<s>−とど−け−で−ないよう−</s>」が5点となる。
このようにして、図10に示すように経路「<s>−とど−け−で−ない−よう−</s>」が選択されることにより、文字列「届け出内容」に以下のような単一ルビを振ることができる。
Figure 0004960636
このように、本実施形態によれば、任意の文字列に対し正しい単一ルビを与えることを保証することができる。
図11は、単一ルビを与えることができない文字列にルビを振る方法の例を示す。
本実施形態によれば、経路に含まれた読みのうち、1文字に対応する読みについてのみ単一ルビを生成することにより、単一ルビを与えることができない場合に単一ルビ以外のルビを与えることも保証することができる。例えば、文字列「今日」に読み「きょう」が関連付けられている場合は、2つの文字に対して1つの読みが与えられるため、単一ルビを与えることができない。この場合、かな漢字変換部208は文字列「今日」を逆変換して読み「きょう」を抽出するが、この読みは2つの文字の各々に割り当てない。単一ルビ処理部209により作成される読みの組み合わせは図11に示すようなものとなり、逆変換された文字列と比較することにより経路「<s>−きょう−</s>」のみが残り、その点数は2となる。これは読みが1つであることを示す。従って、以下のように2つの文字に対して読み「きょう」が単一ではないルビとして与えられる。
Figure 0004960636
本明細書で例示および説明した方法の実行または遂行の順序は、特に指定のない限り、必須ではない。すなわち、発明者によって、特に指定のない限りこれらの方法の要素をいかなる順序で実行することもできること、および、これらの方法には本明細書で開示された要素より多いかあるいは少ない要素が含まれる場合があることが企図される。
上記に鑑みて、本発明のいくつかの目的が達成され、他の有利な結果が達成されることはわかるであろう。
上記の構成および方法において、様々な変更を本発明の実施形態の範囲から逸脱することなく行うことができる。
従って、上記の説明に含まれ、添付の図面に示した全ての内容は、限定の意味ではなく例示として解釈されるものとすることが意図される。
本発明を実施するための環境の例を示すブロック図である。 本発明の一実施形態に係るかな漢字変換装置の機能構成を概略的に示すブロック図である。 単一ルビ処理部の機能構成の一例を概略的に示すブロック図である。 本発明の一実施形態に係る文字列に単一ルビを与える方法の手順を示すフローチャートである。 本実施形態に係る文字列に単一ルビを与える方法を示す図である。 本実施形態に係る文字列に単一ルビを与える方法を示す図である。 本実施形態に係る文字列に単一ルビを与える方法を示す図である。 本実施形態に係る文字列に単一ルビを与える方法を示す図である。 本実施形態に係る文字列に単一ルビを与える方法を示す図である。 本実施形態に係る文字列に単一ルビを与える方法を示す図である。 本実施形態に係る文字列にルビを与える方法を示す図である。
符号の説明
200 かな漢字変換装置
202 文書処理部
204 表計算部
206 プレゼンテーション資料作成部
208 かな漢字変換部
209 単一ルビ処理部
210 記憶装置
211 逆変換部
212 表示制御部
214 表示装置
216 入力部
302 文字列取得部
304 読み抽出部
306 ラティス構築部
308 採点部
310 経路選択部
312 単一ルビ生成部

Claims (10)

  1. 表記と読みとを関連付けた辞書を記憶した記憶手段と、
    前記辞書を検索して、文字列に含まれた文字または語の読みを抽出する抽出手段と、
    前記辞書を検索して、前記文字列全体の読みを抽出する逆変換手段と、
    前記抽出手段により抽出された読みを組み合わせて、該組み合わされた読みの経路から、前記逆変換手段により抽出された文字列全体の読みと一致した読みの経路を選択することにより、可能な読みのラティスを構築する構築手段と、
    前記可能な読みのラティスに含まれた読みの経路内で読みを区切るノードの合計に基づいて、前記経路の各々に点数を付与する採点手段と、
    前記採点手段により付与された点数が最高である経路を選択する選択手段と、
    前記選択手段により選択された経路に含まれた読みの各々に基づき単一ルビを生成する生成手段と
    を備えたことを特徴とするかな漢字変換装置。
  2. 前記抽出手段は、
    前記文字列を分割して文字または語の組を作成する作成手段と、
    前記分割された文字または語の各々について前記辞書を検索する検索手段と
    を含むことを特徴とする請求項1に記載のかな漢字変換装置。
  3. 前記作成手段は、前記文字列を異なる位置で分割した文字または語の複数の組を作成する手段を含むことを特徴とする請求項2に記載のかな漢字変換装置。
  4. 前記生成手段は、前記選択手段により選択された経路に含まれた読みのうち、1文字に対応する読みについてのみ単一ルビを生成することを特徴とする請求項1ないしのいずれかに記載のかな漢字変換装置。
  5. 文字列に単一ルビを与える方法であって、コンピュータの処理装置が、
    記憶装置に記憶された辞書を検索して、文字列に含まれた文字または語の読みを抽出するステップと、
    前記辞書を検索して、前記文字列全体の読みを抽出するステップと、
    前記抽出された読みを組み合わせて、該組み合わされた読みの経路から、前記抽出された文字列全体の読みと一致した読みの経路を選択することにより、可能な読みのラティスを構築するステップと、
    前記可能な読みのラティスに含まれた読みの経路内で読みを区切るノードの合計に基づいて、前記経路の各々に点数を付与するステップと、
    前記付与された点数が最高である経路を選択するステップと、
    前記選択された経路に含まれた読みの各々に基づき単一ルビを生成するステップと
    を備えたことを特徴とする方法。
  6. 前記抽出するステップは、
    前記文字列を分割して文字または語の組を作成するステップと、
    前記分割された文字または語の各々について前記辞書を検索するステップと
    を含むことを特徴とする請求項に記載の文字列に単一ルビを与える方法。
  7. 前記作成するステップは、前記文字列を異なる位置で分割した文字または語の複数の組を作成するステップを含むことを特徴とする請求項に記載の文字列に単一ルビを与える方法。
  8. 前記生成するステップにおいて、前記選択された経路に含まれた読みのうち、1文字に対応する読みについてのみ単一ルビを生成することを特徴とする請求項ないしのいずれかに記載の文字列に単一ルビを与える方法。
  9. コンピュータを請求項1ないしのいずれかに記載のかな漢字変換装置として機能させることを特徴とするコンピュータプログラム。
  10. 請求項に記載のコンピュータプログラムを記憶したことを特徴とするコンピュータ読み取り可能な記憶媒体。
JP2006023325A 2006-01-31 2006-01-31 かな漢字変換装置、文字列に単一ルビを与える方法、コンピュータプログラムおよびコンピュータ読み取り可能な記憶媒体 Active JP4960636B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2006023325A JP4960636B2 (ja) 2006-01-31 2006-01-31 かな漢字変換装置、文字列に単一ルビを与える方法、コンピュータプログラムおよびコンピュータ読み取り可能な記憶媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006023325A JP4960636B2 (ja) 2006-01-31 2006-01-31 かな漢字変換装置、文字列に単一ルビを与える方法、コンピュータプログラムおよびコンピュータ読み取り可能な記憶媒体

Publications (2)

Publication Number Publication Date
JP2007206860A JP2007206860A (ja) 2007-08-16
JP4960636B2 true JP4960636B2 (ja) 2012-06-27

Family

ID=38486296

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006023325A Active JP4960636B2 (ja) 2006-01-31 2006-01-31 かな漢字変換装置、文字列に単一ルビを与える方法、コンピュータプログラムおよびコンピュータ読み取り可能な記憶媒体

Country Status (1)

Country Link
JP (1) JP4960636B2 (ja)

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11232268A (ja) * 1998-02-09 1999-08-27 Sumitomo Metal Ind Ltd 文書処理装置、ルビ割り付け方法、及び記録媒体

Also Published As

Publication number Publication date
JP2007206860A (ja) 2007-08-16

Similar Documents

Publication Publication Date Title
JP5239307B2 (ja) 翻訳装置及び翻訳プログラム
JP2007004633A (ja) 言語モデル作成装置およびそれにより作成された言語モデルを使用する言語処理装置
JP5513898B2 (ja) 共有された言語モデル
US20110202532A1 (en) Information sharing system, information sharing method, and information sharing program
JP2004246440A (ja) 形態素解析装置、自然言語処理装置、形態素解析方法及びプログラム
JP6538563B2 (ja) 入力支援装置、入力支援方法及びプログラム
JP4960636B2 (ja) かな漢字変換装置、文字列に単一ルビを与える方法、コンピュータプログラムおよびコンピュータ読み取り可能な記憶媒体
JPWO2011004524A1 (ja) テキストマイニング装置
JP7247593B2 (ja) 生成装置、ソフトウェアロボットシステム、生成方法及び生成プログラム
JP4734400B2 (ja) 文書検索装置およびプログラム
JP6805927B2 (ja) インデックス生成プログラム、データ検索プログラム、インデックス生成装置、データ検索装置、インデックス生成方法、及びデータ検索方法
JP6753190B2 (ja) 文書検索装置及びプログラム
JP2010146061A (ja) 例文表示装置、例文表示方法および例文表示プログラム
JP5184987B2 (ja) 索引情報作成装置、索引情報作成方法及びプログラム
JP2003316775A (ja) 明細書作成支援装置
JP5219543B2 (ja) 情報処理装置及び情報処理方法及びプログラム
JP2008180912A (ja) グラフ形式のデータを活用した電子辞書
JP2009048351A (ja) 情報検索装置、情報検索方法および情報検索プログラム
JP2008276561A (ja) 形態素解析装置、形態素解析方法、形態素解析プログラム及びコンピュータプログラムを格納した記録媒体
WO2022091536A1 (ja) 意味表現解析システム及び意味表現解析方法
JP2019008477A (ja) 判別プログラム、判別装置及び判別方法
JP5932601B2 (ja) 履歴情報生成プログラム及び履歴情報生成装置
JP6511874B2 (ja) コンピュータプログラム、検索装置及び検索方法
JP2006323654A (ja) 話題抽出方法及び装置及びプログラム及び記憶媒体
JP2008059600A (ja) 文書処理装置、文書処理方法、および、文書処理プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20090108

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110602

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110607

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110907

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120316

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120323

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150330

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4960636

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250