CN101371252A

CN101371252A - 字符处理装置、方法、程序以及存储介质

Info

Publication number: CN101371252A
Application number: CNA2007800028749A
Authority: CN
Inventors: 佐藤良治; 石桥纪子; 关美由纪; 鹿子木宏明; 梅冈孝史
Original assignee: Microsoft Corp
Current assignee: Microsoft Technology Licensing LLC
Priority date: 2006-01-31
Filing date: 2007-01-31
Publication date: 2009-02-18
Anticipated expiration: 2027-01-31
Also published as: JP2007206796A; CN101371252B; WO2007088902A1; TW200821868A; JP4845523B2

Abstract

本发明提供一种字符处理装置。所述字符处理装置具有短语辞典，当给出与短语辞典中记载的读法相同的读法的情况下，除了从单词辞典(110)取得的写法的节点，再加上将从短语辞典取得的写法作为旁路添加到词网格，使用词网格将单词读法的字符串转换为对应的写法的字符串。

Description

字符处理装置、方法、程序以及存储介质

技术领域

本发明涉及使用词网格将对于输入的多个单词的读法(例如平假名和罗马字母)的字符串转换为与读法对应的写法(汉字、混合了假名的汉字、英语字母等)的字符处理装置、方法、程序以及存储介质。

背景技术

以往已知有一种使用词网格进行假名汉字转换的方法。词网格就如非专利文献1中记载的那样，是一个将输入的多个读法或者与这些输入的读法对应的多个写法按照其连接顺序进行排列的网络。构成该网络的各个写法的每一个写法被称为节点。按照连接顺序排列的全部多个节点被称为路径。成为该节点的写法是参考单词辞典而获得的。单词辞典是由不同的多个记录构成的读法—写法转换辞典，一个记录中含有一个读法和与该读法对应的一个写法(也被称为词条)。

例如，给出“とつきよちよう”这样一个读法的话，就会通过CPU在假名汉字转换装置的存储器上生成具有：

路径1“とつきよ”(注：发音为Tokkyo的平假名字符串)→“町”(注：发音为Chou的汉字，意思是城镇)；

路径2“とつきよ”→“厅”(注：发音为Chou的汉字，意思是办公室)；

路径3“特許”(注：发音为Tokkyo的汉字字符串，意思是专利)→“庁”；

……\

等多个路径的词网格。

CPU参考语言辞典来取得各个路径上的连续的规定个数(通常，经常使用的个数是1-3个)的节点的出现概率，然后通过将一条路径上的所有节点的出现概率相乘来计算一条路径中的节点的出现概率。顺便介绍一下，语言辞典是由多个记录构成的辞典，一个记录中含有规定个数的写法的字符串与该字符串的出现概率。

用上述例子来说明的话，“とつきよ”、“町”、“A1”(出现概率的值)就成为了语言辞典的一个记录。

CPU反复进行上述处理过程，从而计算出词网格上所有路径的出现概率。CPU从计算出的多个出现概率中检测出最高的路径的概率。将具有最高出现概率的路径所表示的节点的连接(系列)决定为与给出的读法的字符串对应的最权威的假名汉字转换结果(非专利文献1)。

将被决定的最权威的假名汉字转换结果显示在显示器的显示画面上，在用户进行确定操作之后，将确定的假名汉字转换结果提交给文件处理装置(用于文字处理机的程序)。同时也将用户频繁使用的写法的字符串的使用频率反映到语言辞典的出现概率上。

在这种字符处理方法中，虽然把输入的读法的字符串转换为出现频率最高的写法，但有时也会有问题。例如，地名、公司名、谚语等表述、多个单词构成的短语等的写法都是预先规定的。可是，在统计式语言模型的开发中，一般是根据被称为语料库的统计资料的出现概率来计算某单词路径的出现概率的。但是，地名等专有名词和谚语等在语料库中出现的概率通常并不高，要把它们设定为可信概率是很困难的。因此，虽然有专有名词这类规定的写法，但用统计式计算的话，无法保证得到那样的转换结果。

在输入上述那样的短语的读法的情况下，由于用上述字符处理方法生成多条路径，并计算路径的出现概率，因此有时在初始的使用状态下，形成为与常用表述不同的假名汉字转换结果。

非专利文献1：http://www.jaist.ac.jp/~kshirai/lec/i223/07.pdf

非专利文献2：《一种强调N元的子集的固定短语的语言模型自适应方法》(电子信息通信学会论文集Vol.J86-D—II No12，2003年12月)

为此，本发明的目的在于提供一种字符处理装置、方法、程序以及存储介质，是使用词网格能够很好地兼顾到进行对常用短语的转换和对具有相同读法的短语以外的写法的转换。

另外，还有如下所述的这些以往技术。

1.将该专有名词等以长单位登录到辞典。这样一来，由于用一个词限制长范围，因此长的登录单词容易成为第1候补。

2.在对辞典/语法进行编译乃至执行假名汉字转换时，对辞典/语法给出的概率进行加权调整，就容易成为第1候补。(非专利文献2)

在第1种方法中，虽然容易出现第1候补，但是只在以该长范围打字时有效，因此存在不得不在该长范围生成候补一览表的问题。

在第2种方法中，必须进行复杂的计算，不存在实用性的方法。

发明内容

本发明没有采用这些以往的方法，而是像第1种方法那样具有仿佛长单词串仍然持有着由内部多个单词构成的信息且就是1个单词那样的推测辞典。然后以长单位进行匹配来计算路径的出现概率，在将转换结果的第1候补决定为想要的字符串之后，分割结构单词串，进行生成候补等后续处理。

详细来说，本发明的第1实施形态，是一种使用词网格将多个单词的读法的字符串转换为对应的多个写法的字符串的字符处理装置，其特征在于，具有：存储将多个短语的读法的字符串和对应的写法的字符串构成一个记录、并具有不同的多个记录的短语辞典的第1存储单元；以作为转换对象的多个单词的读法的字符串来检索所述短语辞典、并取得短语辞典中与该多个单词的读法的字符串有相同读法的字符串所对应的多个单词的写法的字符串的检索单元；将通过该检索单元的检索得到的多个短语的写法的字符串作为多个节点添加到所述词网格的第1信息处理单元；将多个单词的写法形成为一组、并存储多个组的出现概率的第2存储单元；存储所述多个短语的写法的出现概率的第3存储单元；以及根据所述第2存储单元和第3存储单元中存储的出现概率、取得作为节点添加了所述短语的写法的字符串的词网格上出现概率最高的路径上的写法的字符串作为转换候补的第2信息处理单元。

本发明的第2实施形态的特征在于，将所述第1存储单元作为第3存储单元来使用，在所述记录中包含了出现概率。

本发明的第3实施形态，是一种使用词网格将多个单词的读法的字符串转换为对应的多个写法的字符串的字符处理装置的字符处理方法，其特征在于，所述字符处理装置具有：存储将多个短语的读法的字符串和对应的写法的字符串构成一个记录、并具有不同的多个记录的短语辞典的第1存储单元；将多个单词的写法形成为一组、并存储多个组的出现概率的第2存储单元；存储所述多个短语的写法的出现概率的第3存储单元检索单元；以及第1信息处理单元和第2信息处理单元，所述字符处理方法通过所述检索单元以作为转换对象的多个单词的读法的字符串来检索所述短语辞典，取得短语辞典中与该多个单词的读法的字符串有相同读法的字符串所对应的多个单词的写法的字符串，还通过所述第1信息处理单元将通过所述检索单元的检索得到的多个单词的写法的字符串作为多个节点添加到所述词网格，还通过所述第2信息处理单元，根据所述第2存储单元和第3存储单元中存储的出现概率，取得作为节点添加了所述短语的写法的字符串的词网格上出现概率最高的路径上的写法的字符串，作为转换候补。

本发明的第4实施形态是如权利要求3所述的字符处理方法，其特征在于，将所述第1存储单元作为第3存储单元来使用，在所述记录中包含了出现概率。

本发明的第5实施形态，是一种使用词网格将多个单词的读法的字符串转换为对应的多个写法的字符串的字符处理装置用的字符处理程序，其特征在于，所述字符处理装置具有：存储将多个短语的读法的字符串和对应的写法的字符串构成一个记录、并具有不同的多个记录的短语辞典的第1存储单元；将多个单词的写法形成为一组、并存储多个组的出现概率的第2存储单元；存储所述多个短语的写法的出现概率的第3存储单元；检索单元；以及第1信息处理单元和第2信息处理单元，所述字符处理程序具有：通过所述检索单元以作为转换对象的多个单词的读法的字符串来检索所述短语辞典、并取得短语辞典中与该多个单词的读法的字符串有相同读法的字符串所对应的多个单词的写法的字符串的步骤；通过所述第1信息处理单元将通过所述检索单元的检索得到的多个单词的写法的字符串作为多个节点添加到所述词网格的步骤；以及通过所述第2信息处理单元并根据所述第2存储单元和第3存储单元中存储的出现概率、取得作为节点添加了所述短语的写法的字符串的词网格上出现概率最高的路径上的写法的字符串作为转换候补的步骤。

本发明的第6实施形态的特征在于，将所述第1存储单元作为第3存储单元来使用，在所述记录中包含了出现概率。

本发明的第7实施形态的特征在于，存储了第5或第6实施形态中的程序。

附图说明

图1是表示本发明的实施形态的硬件结构的框图。

图2是表示本发明的实施形态的软件结构的框图。

图3是表示本发明的实施形态的字符处理过程的流程图。

图4是表示词网格的一个例子的说明图。

图5是表示添加了节点的词网格的说明图。

具体实施方式

以下参照附图对本发明的实施形态进行详细说明。

实施形态1

图1是表示实施形态1的字符处理装置的系统结构的一个例子。作为字符处理装置，可以使用通用的个人电脑、手机等具有信息处理功能的各种信息处理装置。

图1中，10是CPU，使用后述的字符处理程序来执行与本发明相关的字符处理。CPU10的功能是作为本发明的检索单元、第1和第2信息处理单元。

20是具有ROM和RAM的系统存储器，对CPU10的输入输出数据临时进行存储。

30是输入装置，可以使用例如键盘等输入读法的字符串的装置。除了键盘以外，也可以使用例如从存储了读法的字符串的存储介质中读取读法的字符串的数据读取装置、和通过通信从外部机器输入读法的字符串的通信装置来作为输入装置30。

40是硬盘(HD)，存储了字符处理程序以及字符处理中使用的后述的辞典。硬盘40的功能是作为本发明的第1到第3存储单元。

50是显示器，显示通过字符处理程序所决定的编间候补。

图2是表示安装在图1的硬盘40上的软件的结构。

100是使用词网格将多个单词的读法的字符串转换为对应的多个写法的字符串的字符处理程序。110是单词辞典，跟以往一样，记载了多个不同的记录，一个记录中含有一个单词的读法的字符串和对应的写法的字符串。

120是语言辞典，记载了多个单词的写法和对应的出现概率。实施形态1中的语言辞典120可以是和以往相同的语言辞典。

130是本发明相关的短语辞典，对于常用的多个短语(例如地名、公司名等专有表述、谚语等)，短语辞典130记载了不同的多个记录，一个记录中含有读法的字符串、写法的字符串和各短语的出现概率。

另外，在单词数量很少的情况下，将与短语辞典130所记载的短语的字符串相同的写法的字符串也记载到语言辞典120中。在这种情况下，希望注意预先将短语辞典130的出现概率设定为高于语言辞典120的出现概率。

实施形态1中存储了单词辞典110的硬盘40的作用是作为本发明的第2存储单元，存储了短语辞典130的硬盘40的作用是作为本发明的第1和第3存储单元。

图3是表示字符处理程序100中的本发明相关的程序部分的处理过程。图4和图5是为了便于理解而用网络的形态表示构造在系统存储器20上的词网格。

一面参照图3到图5，一面对字符处理装置的动作进行说明。

对从输入装置30输入作为读法的字符串的“とつきよちよう”、直到得到作为转换候补的“特許厅”为止的CPU10的处理内容进行说明。

在图3的步骤S10中，CPU10使用与以往相同的方法在系统存储器20上构造如图4所示的词网格。简单来说，CPU10用读法的字符串“とつきよ”检索单词辞典110，取得作为可能转换的写法的字符串的“とつきよ”、“トツキヨ”和“特許”。将取得的3个字符串分别存储到系统存储器20。然后，CPU10通过检索从单词辞典110取得与剩下的读法的字符串“ちよう”对应的可能转换的写法的字符串“ちよう”、“チヨウ”(发音为Chou的片假名字符串)、“町”……“庁”。

将取得的读法的字符串和之前刚刚取得的单词的写法的字符串相关联后存储到系统存储器20。作为相关联的方法，由于广为人知的有把存储了刚取得的写法的存储地址作为属性信息赋予取得的写法的方法、和以表的形态进行存储等方法，因此业内人员只要使用合适的方法就可以了。

这个例子是对2个单词输入读法的字符串的例子，但如果是输入3个以上的单词的情况下，以下，CPU10以单词为单位取得与读法的字符串对应的写法的字符串来构造词网格。

然后，CPU10进入图3中的步骤S20。此时，CPU10作为本发明的检索单元，用输入的读法的字符串，此时是“とつきよちよう”，对短语辞典130进行检索。通过该检索从短语辞典130得到短语的写法“特許厅”和它的出现概率A1。

过程进入步骤S30，CPU10将取得的短语的写法“特許”和“庁”作为节点如图5所示添加到系统存储器20上的词网格(参见图4)中。可以把取得的短语中的各个单词作为节点，也可以把整体作为节点。图5中的例子是把单词作为节点。另外，将由添加的节点构成的路径在本实施形态中称为旁路(标号1010)。为了区别于以往的路径，给予旁路1010显示其为旁路的属性信息。

过程进入S40，CPU10计算图5的词网格上的各路径的出现概率。在图5的例子中，由于第1路径是“とつきよ”→“チヨウ”，所以用“とつきよ”+“チヨウ”来检索语言辞典120，通过CPU10取得对应的出现概率B1。

这样一来，从语言辞典120取得关于通过单词辞典110取得节点的路径(图4)的出现概率。

由于在步骤S20从短语辞典130得到旁路1010上的节点“特許”和“厅”的出现概率A1，因此CPU10对各路径进行互相比较，比如使用称为排序的信息处理方法，检测出具有最高出现概率的路径。通过CPU10，将检测出的路径上的节点进行结合的写法的字符串作为对读法的字符串“とつきよちよう”所对应的转换候补，通过显示器50取得并显示(步骤S40)。之后，用户跟以往一样，使用输入装置30进行确定，或者给予CPU10转换的指示，取得用户所要的转换结果。

在本例中，在字符处理装置的初始使用状态下，对于“とつきよちよう”，用从短语辞典130取得的写法所构成的图5中的旁路1010具有最高的出现概率。因此，图5中的旁路1010上的节点(特許庁)被决定作为转换候补。

之后，如果用户频繁使用“特許厅”这个写法，则跟以往一样，更新语言辞典120上的“特許庁”对应的出现频率，使其变高，图5中的旁路1000上的节点(特許庁)被决定作为转换候补。

如果住在叫“特許町”的城镇的人使用这个字符处理装置来输入住址的话，则由于语言辞典120上记载的“特許町”的出现频率会随着用户的使用而更新，因此该用户输入“とつきよちよう”到字符处理装置的情况下会得到“特許町”的转换结果。

如上所述，通过将从短语辞典130取得的写法作为节点添加到词网格，可以解决以往的在初始的使用状态下常用表述不一定会成为转换结果的问题。

实施形态2

虽然在实施形态1中把短语的出现概率与读法的字符串和写法的字符串一起记载在短语辞典130中，但是也可以将出现概率记载在语言辞典120中，另外也可以记载在其它的辞典或表中。

以上所述的实施形态是为了说明本发明的例子。本发明的技术思想如权利要求的范围所示，根据这个技术思想，业内人员可以容易地理解存在着对上述实施形态的各种改良形态。

工业上的实用性

本发明通过将从短语辞典取得的单词的写法作为节点添加到词网格，可以改进以往在初始的使用状态下常用写法不会成为转换结果的问题。另外，由于根据使用频率，具有与常用写法相同的读法的常用写法以外的写法成为转换结果，因此可以得到很好地兼顾不同情况的转换结果。

Claims

1.一种字符处理装置，是使用词网格将多个单词的读法的字符串转换为对应的多个写法的字符串的字符处理装置，其特征在于，具有：

将多个短语的读法的字符串和对应的写法的字符串构成一个记录、并存储具有不同的多个记录的短语辞典的第1存储单元；

以多个单词的读法的字符串作为转换对象来检索所述短语辞典、并取得短语辞典中与该多个单词的读法的字符串有相同读法的字符串所对应的多个单词的写法的字符串的检索单元；

将通过该检索单元的检索得到的多个短语的写法的字符串作为多个节点添加到所述词网格的第1信息处理单元；

将多个单词的写法形成为一组、并存储多个组的出现概率的第2存储单元；

存储所述多个短语的写法的出现概率的第3存储单元；以及

根据所述第2存储单元和第3存储单元中存储的出现概率、取得添加了作为节点的所述短语的写法的字符串的词网格上出现概率最高的路径上的写法的字符串作为转换候补的第2信息处理单元。

2.如权利要求1所述的字符处理装置，其特征在于，

将所述第1存储单元作为第3存储单元来使用，在所述记录中包含了出现概率。

3.一种字符处理装置的字符处理方法，是使用词网格将多个单词的读法的字符串转换为对应的多个写法的字符串的字符处理装置的字符处理方法，其特征在于，

所述字符处理装置具有：

将多个单词的写法形成为一组、并存储多个组的出现概率的第2存储单元；存储所述多个短语的写法的出现概率的第3存储单元；

检索单元；以及

第1信息处理单元和第2信息处理单元，

所述字符处理方法通过所述检索单元以多个单词的读法的字符串作为转换对象来检索所述短语辞典，取得短语辞典中与该多个单词的读法的字符串有相同读法的字符串所对应的多个单词的写法的字符串，

通过所述第1信息处理单元将通过所述检索单元的检索得到的多个单词的写法的字符串作为多个节点添加到所述词网格，

通过所述第2信息处理单元，根据所述第2存储单元和第3存储单元中存储的出现概率，取得添加了作为节点的所述短语的写法的字符串的词网格上出现概率最高的路径上的写法的字符串，作为转换候补。

4.如权利要求3所述的字符处理装置的字符处理方法，其特征在于，

5.一种字符处理程序，是使用词网格将多个单词的读法的字符串转换为对应的多个写法的字符串的字符处理装置用的字符处理程序，其特征在于，

所述字符处理装置具有：

存储所述多个短语的写法的出现概率的第3存储单元；

检索单元；以及

第1信息处理单元和第2信息处理单元，

所述字符处理程序具有：

通过所述检索单元以多个单词的读法的字符串作为转换对象来检索所述短语辞典、并取得短语辞典中与该多个单词的读法的字符串有相同读法的字符串所对应的多个单词的写法的字符串的步骤；

通过所述第1信息处理单元将通过所述检索单元的检索得到的多个单词的写法的字符串作为多个节点添加到所述词网格的步骤；以及

通过所述第2信息处理单元并根据所述第2存储单元和第3存储单元中存储的出现概率、取得添加了作为节点的所述短语的写法的字符串的词网格上出现概率最高的路径上的写法的字符串作为转换候补的步骤。

6.如权利要求5所述的字符处理程序，其特征在于，

7.一种存储介质，其特征在于，

存储了权利要求5或权利要求6所述的程序。