CN1123815C - 汉字输入系统中的拼音字词关系表自动登录方法及装置 - Google Patents

汉字输入系统中的拼音字词关系表自动登录方法及装置 Download PDF

Info

Publication number
CN1123815C
CN1123815C CN97115565A CN97115565A CN1123815C CN 1123815 C CN1123815 C CN 1123815C CN 97115565 A CN97115565 A CN 97115565A CN 97115565 A CN97115565 A CN 97115565A CN 1123815 C CN1123815 C CN 1123815C
Authority
CN
China
Prior art keywords
field
usage frequency
relation table
individual character
neologisms
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN97115565A
Other languages
English (en)
Other versions
CN1206871A (zh
Inventor
陈奕秋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
OUMULONG COMPUTER CO Ltd SHANGHAI
Original Assignee
OUMULONG COMPUTER CO Ltd SHANGHAI
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by OUMULONG COMPUTER CO Ltd SHANGHAI filed Critical OUMULONG COMPUTER CO Ltd SHANGHAI
Priority to CN97115565A priority Critical patent/CN1123815C/zh
Publication of CN1206871A publication Critical patent/CN1206871A/zh
Application granted granted Critical
Publication of CN1123815C publication Critical patent/CN1123815C/zh
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Document Processing Apparatus (AREA)

Abstract

本发明提供了一种汉字拼音输入系统中使用的拼音字词关系表的自动登录方法以及装置。关系表的大小将直接关系到汉字输入系统的正确性和速度。本发明的方法包含下列步骤:输入汉语句子;查找已有的拼音字词关系表,将句子分割成字段;查找两个及两个以上连续的单字字段;把使用频度都小于第一频度阈值或者平均使用频度小于第一频度阈值的所述两个及两个以上连续单字字段组成新词,登录到所述拼音字词关系表中。本发明还提供了实现这种方法的装置。

Description

汉字输入系统中的拼音字词关系表自动登录方法及装置
本发明涉及汉字的拼音输入系统,尤其涉及汉字输入系统中使用的拼音字词关系表的登录方法以及装置。
本发明与本申请人于同日提出的名称为“拼音汉字变换方法及其系统”的发明专利申请有关。本申请援引该专利申请,作为参考。在该申请中,提供了一种拼音汉字变换方法及其系统,在这种方法和系统中,利用了拼音字词关系表查找输入的拼音码所对应的字或词,以利提高输入速度。而拼音字词关系表的数据量大小将直接影响到其作用的大小。即,关系表的数据量越大,越有利于转换的正确性和速度。
本发明的目的就是提供一种拼音字词关系表的自动登录方法。利用这种方法,在汉字拼音输入系统中,可以自动地登录拼音字词关系表中原先没有的拼音与字词之间的关系,自动地扩充关系表。
本发明的另一个目的在于提供一种拼音字词关系表自动登录装置,这种装置可以自动地登录拼音字词关系表中原先没有的拼音与字词之间的关系,自动地扩充关系表。
本发明的拼音字词关系表自动登录方法包含下列步骤:
(1)输入汉语句子;
(2)查找已有的拼音字词关系表,将句子分割成字段;
(3)查找两个及两个以上连续的单字字段;
(4)把使用频度都小于第一频度阈值或者平均使用频度小于第一频度阈值的所述两个及两个以上连续单字字段组成新词,登录到所述拼音字词关系表中。
本发明还提供了一种实现本发明方法的拼音字词关系表自动登录装置,包含:
拼音字词关系表,用于存储拼音与所对应词的映射关系,以及这些对应的字和词的使用频度;
输入装置,用于输入汉语句子;
句子分割装置,与所述输入装置和所述拼音字词关系表相连,用于根据所述拼音字词关系表中已存储的词把所述输入装置输入的汉语句子分割成字段;
连续单字字段查找装置,与所述句子分割装置相连,用于查找两个或两个以上连续的单字字段;
组词装置,与所述连续单字字段查找装置相连,用于把所述连续单字字段查找装置找到的每个单字字段的使用频度都小于或者平均使用频度小于第一频度阈值的连续单字字段组成新词;
登录装置,与所述组词装置相连,把所述组词装置组成的新词登录到所述拼音字词关系表中。
如上所述,只要用户输入或者提供一句汉语句子,本方法或装置就能自动地从中找出拼音字词关系表中没有存储的新词进行登录,从而自动地扩充关系表。
下面结合附图详细描述本发明的实施例。
图1是本发明的拼音字词关系表自动登录方法第一实施例的流程图;
图2是本发明的拼音字词关系表自动登录方法第二实施例的流程图;
图3是本发明的拼音字词关系表自动登录方法第三实施例的部分流程图;
图4是本发明的拼音字词关系表自动登录装置的实施例的方框图;
图5是图4的拼音字词关系表自动登录装置的改进实施例的方框图。
下面首先参照图1来描述本发明的拼音字词关系表自动登录方法第一实施例的流程。
请参见图1,图1示出了本发明的拼音字词关系表自动登录方法第一实施例的流程图。首先,在步骤S1输入汉语句子。汉语句子可以通过输入装置,如键盘、一个现成的文本文件等输入。在本实施例中,为便用说明和理解,我们假设输入的句子为“热烈庆祝香港回归”。然后,在步骤S2,把输入的句子分割成字段。即,对照已有的拼音字词关系表,把句子中与已有的拼音字词关系表中存储的词一致的词分割成一个字段。在本例中,假设拼音字词关系表中已经存储了“热烈”、“庆祝”和“回归”。则,把这一句子分割成这些字段:“热烈”、“庆祝”、“香”、“港”、“回归”。
在步骤S3,先设置一个指针,并把指针置于第一字段“热”,然后进入到步骤S4,按字段顺序判别是否有两个或两个以上的连续的单字字段、在本例中,第一个字段为“热烈”,不是单字字段,因而流程进入到步骤S12,将指针置于后一未处理字段后,在步骤S13判断句子是否已处理完毕,如未处理完毕,则流程返回步骤S4,继续寻找两个及两个以上连续的单字字段。在字段“香”和“港”处,找到了两个连续的单字字段,则流程从步骤S4进入到步骤S5,判别这些字段的使用频度是否都小于第一使用频度阈值或者判别这些字段的平均使用频度是否小于该第一使用频度阈值。这一使用频度阈值是预先设定的。可以通过试验来确定。设置这一阈值的目的由于低频字在输入时往往不容易被选中,而高频字易被选中,所以尽量把低频字组合成词,而不把高频字组成新词。通过大量试验,该第一使用频度阈值的范围在50至60之间较佳。
如果单字字段“香”和“港”的使用频度都小于第一使用频度阈值,或者这两个单字字段的平均使用频度小于第一使用频度阈值,则流程进入到步骤S7,把这些单字字段组成新词。然后,在步骤S11,把该新词登录到拼音字词关系表中。流程进入到步骤S12,判断句子是否已处理完,如果没有处理完,则在步骤S13将指针移到后一未处理字段,返回到步骤S4。如果已处理完,则进入步骤S14,结束登录。如果单字字段“香”和“港”的使用频度小于第一使用频率阈值,则流程从步骤S5进入步骤S12,进行下一字段的处理。
图2示出了本发明的拼音字词关系表自动登录方法的第二实施例的流程图。图2所示的方法是对图1所示方法的改进。它在图1的基础上增加了步骤S8至S11以及S6。我们以“希特勒是一个战争狂”为例。与图1的实施例一样,在步骤S1,输入上述句子。在步骤S2将句子分割成这样一些字段:“希”、“特”、“勒”、“是”、“一个”、“战争”、“狂”。由于字段“希”、“特”、“勒”的使用频度满足小于第一使用频度的要求,所以与上述一样,经过步骤S4、S5、S7、S11把这些字段组成新词“希特勒”登录到拼音字词关系表中。对于字段“是”“一个”和“战争”则不满足上述条件,所以不进入登录,最后指针指向字段“狂”。由于该字段“狂”只有一个单字字段,故在步骤S4,流程进入到步骤S8,并在步骤S8判断该字段是否为单字字段。由于前面的字段“一个”、“战争”不是单字字段,所以处理到这些字段时,流程从步骤S8转至S12。而对于字段“狂”,它是一个单字字段,所以流程进入到步骤S9,在步骤S9判断该单字字段的使用频度是否小于第二使用频度阈值。该第二使用频度阈值与第一实施例中的第一使用频度阈值一样,也是预定的,只是它比第一使用频度阈值更低。其作用是为了把使用频度更低的字与其它词连接,以便于输入。该值也可以通过试验获得。通过大量试验,该第二使用频度阈值取20为较佳。
由于前面的字段“是”虽然是一个单字字段,但由于其使用频度大于第二使用频度阈值,所以在步骤S9进入到步骤S12。而本字段“狂”的使用频度小于第二使用频度阈值,所以流程继续进入到步骤S10,把该单字字段与前一字段或后一字段组成新词。与前一字段连接还是与后一字段连接,都是可以的,但作为一种方式,在本实施例中确定如果有前一字段,则与前一字段相接;如本例中有前一字段“战争”,就与前一字段连接成新词“战争狂”。如果没有前一字段,则与后一字段连接。连接成新词后,流程进入到步骤S11,把该新词登录到拼音字词关系表中,然后进入步骤S12。
下面以“邓小平会见撒切尔夫人”为例,来说明步骤S6。在步骤S1输入该句子。然后,在步骤S2把该句子分割成下列字段:“邓”、“小”、“平”、“会见”、“撒”、“切”、“尔”、“夫人”。在步骤S3把指针设置到第一字段“邓”上,然后,在步骤S4找到的三个连续的单字字段“邓”、“小”、“平”。流程进入到步骤S5,由于这三个单字字段的平均使用频度大于第一使用频度阈值,所以流程不进入到步骤S7而是进入到步骤S6,判别这些连续的单字字段中是否有小于第二使用频度阈值的单字字段。经判别,假设字段“邓”的使用频度小于第二频度阈值,所以流程转向步骤S10把该字段“邓”与前一字段或后一字段相接,由于字段“邓”前面没有字段,所以它与后一字段“小”字连接,形成新词“邓小”,在步骤S11登录到拼音字词关系表中。如果在步骤S6没有找到满足条件的单字字段,则流程进入到步骤S12。
在本发明的拼音字词关系表自动登录方法的第三个实施例中,增加了登录新词使用频度的步骤。图3示出了这些步骤。图3所示步骤插入到图2的步骤S11和S12之间,即步骤S101上接图2步骤S11,步骤S102下接图2的步骤S12。在步骤S11登录了新词后进入到步骤S101,计算该登录的新词的使用频度。新词的使用频度这样确定,即把新词中的字平均使用频度作为该新词的使用频度。例如,上面的例子中登录的新词“战争狂”,可以把“战”、“争”和“狂”三个字的平均使用频度作为新词“战争狂”的使用频度。在计算出新词的使用频度后,进入步骤S102,把计算得到的使用频度登录到拼音字词关系表中。
以上详细描述了本发明的方法,下面结合图4和图5描述本发明实现上述方法的装置。参见图4,图4示出了实现图1所示的自动登录方法的自动登录装置。如图4所示,拼音字词关系表自动登录装置由输入装置1、句子分割装置2、连续单字字段查找装置3、组词装置4、登录装置5和拼音字词关系表6组成。
输入装置1用于输入汉语句子;输入装置可以是键盘等。输入装置1输入的句子送到句子分割装置2中,由句子分割装置2进行分割。即分割装置2利用拼音字词关系表6,把句子中与已有的拼音字词关系表6中存储的词一致的词分割成字段(由于在描述方法时已经作了例举,所以在描述装置时不再举例,可参见上面的例子)。连续单字字段查找装置3接收句子分割装置2输出的字段,对这些字段进入查找,找出两个或两个以上连续的单字字段。并把找出的连续单字字段输出给组词装置4,组词装置4把连续单字字段查找装置3找到的每个单字字段的使用频度都小于或者平均使用频度小于第一频度阈值的连续单字字段组成新词。登录装置5接收组词装置4输出的新词,把该新词登录到拼音字词关系表6,从而完成新词的登录。
请参见图5,图5所示的拼音字词关系自动登录装置是对图4所示的拼音字词关系自动登录装置的改进。如图5所示,拼音字词关系表自动登录装置除了图4所示的输入装置1、句子分割装置2、连续单字字段查找装置3、组词装置4、登录装置5和拼音字词关系表6之外,还增加了超低频单字字段查找装置7和使用频度计算装置8。
输入装置1、句子分割装置2、连续单字字段查找装置3、组词装置4、登录装置5和拼音字词关系表6的作用和工作情况与图4所示的实施例相同。超低频单字字段查找装置7与连续单字字段查找装置3相连。当连续单字字段查找装置3没有查找到两个或两个以上连续的单字字段或者虽然有两个或两个以上连续的单字字段,但连续的单字字段中至少有一个单字字段的使用步骤大于第一阈值时,则由超低频单字字段查找装置7查找出使频度低于第二使用频度阈值的字段。这里的第一使用频度阈值与第二使用频度阈值的定义与描述方法时所定义的一样,第一和第二使用频度阈值都是预定的,第二使用频度阈值低于第一使用频度阈值。对于这两个阈值的作用和范围可以参见上面的描述,这里不再重复。
如果超低频单字字段查找装置7找到了使用频度低于第二使用频度阈值的单字字段时,则组词装置8把该超低频单字字段与前一字段或后一字段相接,组成新词。再由登录装置5登录到拼音字词关系表6中。对于该超低频单字字段与前一字段相接还是与后一字段相接,这是可以任意选择的。在一般情况下,如果有存在前一字段,则把该超低频单字字段与前一字段相接,否则与后一字段相接。
在本实施例中,还增加了一个使用频度计算装置8。该使用频度计算装置8的作用时,当组词装置4组成一个新词时,对组成的新词计算使用频度,然后,把计算得到的使用频度提供给登录装置5,登录到拼音字词关系表6中。使用频度计算装置8可以把通过简单地取组成新词的各字段中最低的使用频度作为新词的使用频度,也可以计算组成新词的各字段的使用频度的平均数,并把该平均数作为新词的使用频度。
上面已通过实施例对本发明作了详细的描述,但本技术领域的技术人员应当理解,上述的方法和装置可以利用软件或硬件来实现,也可以利用软、硬件相结合的方式来实现。

Claims (15)

1、一种拼音字词关系表自动登录方法,其特征在于,包含下列步骤:
(1)输入汉语句子;
(2)查找已有的拼音字词关系表,将句子分割成字段;
(3)查找两个及两个以上连续的单字字段;
(4)把使用频度都小于第一频度阈值或者平均使用频度小于第一频度阈值的所述两个及两个以上连续单字字段组成新词,登录到所述拼音字词关系表中。
2、如权利要求1所述的拼音字词关系表自动登录方法,其特征在于,还包括下列步骤:
(5)如果在步骤(3)没有找到连续的单字字段,则查找一个单字字段;
(6)把使用频度小于第二频度阈值的单字字段与前一个字段或后一个字段相接,组成新词,登录到所述拼音字词关系表中。
3、如权利要求1或2所述的拼音字词关系表自动登录方法,其特征在于,还包含下列步骤:
(7)如果在步骤(4)连续单字字段中每个单字字段的使用频度至少有一个大于所述第一频度阈值,则查找这些单字字段中是否有小于第二频度阈值的单字字段;
(8)把使用频度小于第二频度阈值的单字字段与前一个字段或后一个字段相接,组成新词,登录到所述拼音字词关系表中。
4、如权利要求1或2所述的拼音字词关系表自动登录方法,其特征在于,还包括下列步骤;
(9)在步骤(4)或步骤(6)登录了所述新词后,计算所述组成新词的字段平均使用频度,把该平均使用频度作为所述新词的使用频度,存储到所述拼音字词关系表中。
5、如权利要求3所述的拼音字词关系表自动登录方法,其特征在于,还包括下列步骤;
(10)在步骤(8)登录了所述新词后,计算组成所述新词的字段平均使用频度,把该平均使用频度作为所述新词的使用频度,存储到所述拼音字词关系表中。
6、如权利要求2所述的拼音字词关系表自动登录方法,其特征在于,所述第二使用频度阈值小于所述第一使用频度阈值。
7、如权利要求3所述的拼音字词关系表自动登录方法,其特征在于,所述第二使用频度阈值小于所述第一使用频度阈值。
8、如权利要求2所述的拼音字词关系表自动登录方法,其特征在于,当存在前一字段时,在步骤(6)中,把使用频度小于第二频度阈值的单字字段与前一字段相接,组成新词。
9、如权利要求3所述的拼音字词关系表自动登录方法,其特征在于,当存在前一字段时,在步骤(8)把使用频度小于第二频度阈值的单字字段与前一字段相接,组成新词。
10、一种实现权利要求1至9所述方法的拼音字词关系表自动登录装置,包含:
拼音字词关系表,用于存储拼音与所对应词的映射关系,以及这些对应的字和词的使用频度;
输入装置,用于输入汉语句子;
其特征在于,还包含:
句子分割装置,与所述输入装置和所述拼音字词关系表相连,用于根据所述拼音字词关系表中已存储的词把所述输入装置输入的汉语句子分割成字段;
连续单字字段查找装置,与所述句子分割装置相连,用于查找两个或两个以上连续的单字字段;
组词装置,与所述连续单字字段查找装置相连,用于把所述连续单字字段查找装置找到的每个单字字段的使用频度都小于或者平均使用频度小于第一频度阈值的连续单字字段组成新词;
登录装置,与所述组词装置相连,把所述组词装置组成的新词登录到所述拼音字词关系表中。
11、如权利要求10所述的拼音字词关系表自动登录装置,其特征在于,还包含:
另一单字字段查找装置,与所述连续单字字段查找装置相连,用于对非两个或两个连续的单字字段以及至少有一个单字字段的使用频度大于第一阈值的字段进行查找,找出使用频度低于第二使用频度阈值的字段;
所述组词装置把所述超低频单字字段查找装置找到的字段与前一字段或后一字段相接,组成新词。
12、如权利要求10所述的拼音字词关系自动登录装置其特征在于,还包含:
使用频度计算装置,与所述组词装置相连,用于计算所述组词装置组成的新词的使用频度;
所述登录装置把所述使用频度计算装置计算得到的新词的使用频度登录到所述拼音字词关系表中。
13、如权利要求12所述的拼音字词关系自动登录装置,其特征在于,所述使用频度计算装置计算组成所述新词的字段平均使用频度,把该平均使用频度作为所述新词的使用频度。
14、如权利要求11所述的拼音字词关系表自动登录装置,其特征在于,所述第二使用频度阈值小于所述第一使用频度阈值。
15、如权利要求11所述的拼音字词关系表自动登录装置,其特征在于,在存在前一字段时,所述组词装置把所述超低频单字字段查找装置找到的字段与前一字段相接,组成新词。
CN97115565A 1997-07-25 1997-07-25 汉字输入系统中的拼音字词关系表自动登录方法及装置 Expired - Fee Related CN1123815C (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN97115565A CN1123815C (zh) 1997-07-25 1997-07-25 汉字输入系统中的拼音字词关系表自动登录方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN97115565A CN1123815C (zh) 1997-07-25 1997-07-25 汉字输入系统中的拼音字词关系表自动登录方法及装置

Publications (2)

Publication Number Publication Date
CN1206871A CN1206871A (zh) 1999-02-03
CN1123815C true CN1123815C (zh) 2003-10-08

Family

ID=5173308

Family Applications (1)

Application Number Title Priority Date Filing Date
CN97115565A Expired - Fee Related CN1123815C (zh) 1997-07-25 1997-07-25 汉字输入系统中的拼音字词关系表自动登录方法及装置

Country Status (1)

Country Link
CN (1) CN1123815C (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6999668B2 (en) * 2002-01-09 2006-02-14 Matsushita Electric Industrial Co., Ltd. Method for manufacturing optical waveguide device, optical waveguide device, and coherent light source and optical apparatus using the optical waveguide device
CN100483417C (zh) * 2007-05-25 2009-04-29 北京搜狗科技发展有限公司 获取限制词信息的方法、优化输出的方法和输入法系统
CN102193639B (zh) * 2010-03-04 2014-03-12 阿里巴巴集团控股有限公司 一种语句生成方法及装置

Also Published As

Publication number Publication date
CN1206871A (zh) 1999-02-03

Similar Documents

Publication Publication Date Title
US6108650A (en) Method and apparatus for an accelerated radius search
CN106844781B (zh) 数据处理的方法及装置
CN102725753B (zh) 优化数据访问的方法及装置、优化数据存储的方法及装置
CN104699845B (zh) 基于提问类搜索词的搜索结果提供方法及装置
US10235427B2 (en) Entity-driven logic for improved name-searching in mixed-entity lists
CN103500224B (zh) 一种数据写入方法及装置、数据读取方法及装置
CN104965873A (zh) 一种分页查询方法及装置
EP1832987B1 (en) Content data searcher
CN108647079A (zh) 一种应用程序的图标在设备中的展示方法及设备
CN103473268B (zh) 线性要素空间索引构建方法、系统和检索方法及其系统
CN1123815C (zh) 汉字输入系统中的拼音字词关系表自动登录方法及装置
JPH11161658A (ja) 追加検索語の優先度計算方法及び装置及び追加検索語の優先度計算プログラムを格納した記憶媒体
CN101726312B (zh) 兴趣点检索方法及装置
US7197498B2 (en) Apparatus, system and method for updating a sorted list
JP2003131931A (ja) 情報ブロックを備える文書データのスケジューリング、データ生成およびデータ処理の方法ならびに装置
CN109542912B (zh) 区间数据存储方法、装置、服务器及存储介质
CN106294429A (zh) 重复数据识别方法和装置
CN110287338B (zh) 行业热点确定方法、装置、设备和介质
CN108733848B (zh) 一种搜索知识的方法及系统
CN108256064B (zh) 一种数据搜索方法和装置
CN107451142B (zh) 在数据库中写入和查询数据的方法与装置及其管理系统和计算机可读存储介质
CN112926867A (zh) 图书馆书籍排序方法及排序系统
CN104778262B (zh) 一种搜索方法及装置
CN109815320B (zh) 问答系统的答案生成方法、装置、设备及存储介质
JPH03191475A (ja) 文書要約方式

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C19 Lapse of patent right due to non-payment of the annual fee
CF01 Termination of patent right due to non-payment of annual fee