CN102135953B - 文本一致性编辑方法 - Google Patents

文本一致性编辑方法 Download PDF

Info

Publication number
CN102135953B
CN102135953B CN 201110076557 CN201110076557A CN102135953B CN 102135953 B CN102135953 B CN 102135953B CN 201110076557 CN201110076557 CN 201110076557 CN 201110076557 A CN201110076557 A CN 201110076557A CN 102135953 B CN102135953 B CN 102135953B
Authority
CN
China
Prior art keywords
proprietary speech
text
proprietary
candidate
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN 201110076557
Other languages
English (en)
Other versions
CN102135953A (zh
Inventor
谭杰
李娜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Automation of Chinese Academy of Science
Original Assignee
Institute of Automation of Chinese Academy of Science
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Automation of Chinese Academy of Science filed Critical Institute of Automation of Chinese Academy of Science
Priority to CN 201110076557 priority Critical patent/CN102135953B/zh
Publication of CN102135953A publication Critical patent/CN102135953A/zh
Application granted granted Critical
Publication of CN102135953B publication Critical patent/CN102135953B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Document Processing Apparatus (AREA)

Abstract

本发明公开了一种文本一致性编辑方法,文本一致性编辑方法包含专有词词库加载模块、专有词定制模块、专有词保存模块、候选专有词列表构建模块及候选专有词显示模块。当用户开始进行文本编辑时,专有词词库加载模块将负责加载专有词词库。用户利用专有词定制模块在编辑文本时定制专有词。利用专有词保存模块保存用户定制的专有词。候选专有词列表构建模块根据当前输入的字符串在专有词词库中查找并构建候选专有词列表。候选专有词显示模块列出候选专有词列表,协助用户决定当前编辑的字符串是否为已定制的专有词。从而维持用户前后输入专有词的一致性。

Description

文本一致性编辑方法
技术领域
本发明涉及文本编辑技术领域,尤其涉及一种能够协助用户编辑文本,使得文本中使用的专有词前后一致的文本一致性编辑方法。
背景技术
用户通过键盘操作输入字符编辑文本逐渐普及。无论是工作中还是生活中,随着互联网及计算机技术的发展,用户通过键盘操作进行电子邮件的撰写、专利的撰写、会议内容记录及博文的发布等已经变得很普遍。现有研究多围绕对文字的编码进行改进,通过缩短编码长度,降低重码,进而提高键盘操作进行文本编辑的效率。同时,一些传统技术是基于由用户输入的字符序列提出预期字符序列,从增强文本输入操作效率并简化其操作。一些智能拼音输入法则通过记录缩写及缩写对应的词组或句子来实现个人输入定制。通过为拼音输入法提供智能组句功能,降低用户选词时间,提升选词的准确率。同时,谷歌拼音输入法通过根据用户上传到服务器端的个人字典,构造个性化语言模型。不同用户的输入内容在语言风格上,可能又较大的差异,借助于个性化的语言模型,谷歌拼音输入法对于用户输入的字和词,特别是词组和语句的匹配会更加符合用户的行文风格及聊天习惯,提高文本编辑的效率。
而目前针对进行单个文本编辑时经常出现的前后引用或定义的专有词不一致问题没有被重视,但这个问题却经常困扰诸如专利撰写者及论文撰写者。
一致性的文本编辑可以提高用户编辑效率。智能输入法能够根据用户习惯来进行候选列表的搭建,但是这并能够解决上文提到的不一致性问题。
因此,目前急需一种能够支持文本一致性编辑的方法。
发明内容
本发明的目的是通过定制、保存及查找匹配用户自定制专有词的系统方法,来支持用户的一致性文本编辑,提高文本编辑过程中前后引用或输入的自定义的字符串的一致性,为此提供一种文本一致性编辑方法。
为了实现所述的目的,本发明提出的一种文本一致性编辑方法,是利用专有词词库加载模块、专有词定制模块、专有词保存模块、候选专有词列表构建模块及候选专有词显示模块实现文本一致性编辑的步骤如下:
步骤S1:对文本进行编辑时,专有词词库加载模块通过专有词词库中的文件标识来定位专有词词库,并在用户打开当前文本进行编辑时,将所定位的专有词词库分别加载到用户当前使用的输入法的词码表中及内存中,支持对专有词词库的进一步查询和更新操作;
步骤S2:在用户选定一个在当前编辑的文本中输入的字符串作为待定制的专有词后,用户利用专有词定制模块判断内存中的专有词词库中是否已存在与当前待定制的专有词相似或是相同的专有词,如果已存在与当前待定制的专有词相似或是相同的专有词,则提示用户当前选定的作为待定制的专有词已被定制,执行步骤S4;如果不存在与当前待定制的专有词相似或是相同的专有词,则执行步骤S3;
步骤S3:专有词保存模块将被定制的专有词保存在内存中的专有词词库及用户当前使用的输入法的词码表中;
步骤S4:当用户选定当前编辑的文本中的某一字符串时,候选专有词列表构建模块根据当前输入字符串在内存中的专有词词库中查找候选专有词,生成候选专有词列表;
步骤S5:候选专有词显示模块根据候选专有词与当前用户输入字符串的相似度对候选专有词进行排序,列出候选专有词列表,协助用户决定当前编辑的字符串是否为已定制的专有词,从而维持用户前后输入的专有词的一致性。
优选实施例:步骤S1所述专有词词库用来存放用户在编辑所述专有词词库所属的文本文件过程中定制的所有专有词,专有词词库的记录拥有文本文件标识、编码、拼音和汉语词组字段;根据文本文件标识定位专有词词库所属的文本文件。
优选实施例:步骤S1所述专有词词库加载模块在保存当前编辑的文本或关闭文本编辑器后,自动将内存中的当前最新版本的专有词词库以文件形式保存在与所属的文本本件相同的路径下,并覆盖原有文件,保存专有词词库的文件的默认属性为隐藏只读。
优选实施例:步骤S2所述专有词定制模块是以插件形式运行在文本编辑器上,用户主动选择是否定制所输入的新字符串。
优选实施例:步骤S4所述候选专有词列表的构建是由候选专有词列表构建模块根据当前编辑的文字的完整性采用无编码候选列表生成算法实现;候选专有词列表构建模块根据用户主动选定的字符串在专有词词库中选出与用户主动选定的字符串相近的候选专有词。
优选实施例:步骤S4所述候选专有词列表构建模块根据当前编辑的字符串在专有词词库中查找候选专有词的方法是动态规划方法或相似度查找算法。当用户打开当前文本进行编辑时,候选专有词列表构建模块通过为专有词词库中的专有词分配最高的相似度、权重或评分,使用户当前使用的输入法中已经定制的专有词被优先列出。
优选实施例:步骤S5所述协助用户决定当前编辑的字符串是否为已定制的专有词是通过在用户主动选定某一字符串后,列出候选专有词列表来实现;候选专有词列表显示在当前编辑的文本旁;用户根据显示的候选专有词列表确定当前编辑字符串所表达的含义是否已经定义及存在于专有词词库中。
优选实施例:在用户进行文本拷贝操作时,步骤S1所述的专有词词库加载模块将提示用户是否将与所属的文本本件在相同的路径下的保存专有词词库的文件同时进行拷贝,保证被拷贝到其他位置的文本在再次打开时可以成功定位到属于所打开的文本的保存专有词词库的文件。
本发明的有益效果:文本一致性编辑方法是一种与文本编辑器及文本输入法无关的方法。文本一致性编辑方法的具体实施难点涉及专有词词库加载的实施,候选专有词列表构建的实施。
专有词词库加载的实施:利用专有词词库加载模块加载专有词词库包含将专有词词库加载到内存中及将专有词词库中的内容加载到用户当前使用的输入法的词码表中。将专有词词库存储在内存中可以提高对专有词词库的查找及更新速度。
候选专有词列表构建的实施:首先,候选专有词列表构建模块根据当前编辑的字符串在专有词词库中查找候选专有词的查找可以是动态规划方法等相似度查找算法等。候选专有词列表构建方法根据当前编辑的文字的完整性可以也可采用无编码候选列表生成算法等。
1)协助文本编辑者进行一致性文本编辑,提高文本编辑过程中前后引用或输入的自定义的新词或新字符串的一致性;
2)所述的文本一致性编辑方法适合工作于任何文本编辑器上,例如Microsoft Office、金山WPS Office、UltraEdit等。适用于专利撰写、论文撰写等各类文档的撰写,在需要定义新词或新字符串的文本编辑过程中,帮助用户进行一致性文本编辑,进而提高工作效率及工作质量。
附图说明
图1为本发明提供的文本一致性编辑方法流程图。
图2为图1文本一致性编辑方法提供的文本一致性编辑系统示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明进一步详细说明。
图2示出的文本一致性编辑系统示意图,所述系统利用计算机实现专有词词库加载模块101、专有词定制模块103、专有词保存模块104、候选专有词列表构建模块107及候选专有词显示模块108。
利用图2示出的文本一致性编辑系统实现图1示出的文本一致性编辑方法,所述文本一致性编辑的一种实施方式的步骤如下:
步骤S1:对文本进行编辑时,专有词词库加载模块101通过专有词词库中的文件标识来定位专有词词库,并在用户打开当前文本进行编辑时,将所定位的专有词词库分别加载到用户当前使用的输入法的词码表中及内存中,支持对专有词词库的进一步查询和更新操作。
当用户利用文本编辑器102进行文本编辑时,首先将打开文本文件,与此同时专有词词库加载模块101将加载与当前打开的文本文件相关联的专有词词库105分别到内存及输入法的词表。所述专有词词库加载模块101在保存当前编辑的文本或关闭文本编辑器102后,自动将内存中的最新版本的专有词词库105以文件形式保存在与所属的文本本件相同的路径下,并覆盖原有文件,保存专有词词库105的文件的默认属性为隐藏只读。所述专有词词库105用来存放用户在编辑所述专有词词库105所属的文本文件过程中定制的所有专有词,专有词词库105的记录拥有文本文件标识、编码、拼音和汉语词组字段。其中,专有词词库加载模块101通过专有词词库105中的文本文件标识来定位属于当前编辑的文本的专有词词库105,然后,将所定位的专有词词库105分别加载到用户当前使用的输入法的词码表中及内存中。
当用户决定保存当前编辑的文本或关闭文本编辑器102时,专有词词库加载模块101在保存当前编辑的文本或关闭文本编辑器102后,自动将内存中的当前最新版本的专有词词库105以文件形式保存在与所属的文本本件相同的路径下,并覆盖原有文件,保存专有词词库105的文件的默认属性为隐藏只读。专有词词库加载模块101在用户进行文本拷贝操作时,将提示用户是否将与所属的文本本件在相同的路径下的保存专有词词库105的文件同时进行拷贝,保证被拷贝到其他位置的文本在再次打开时可以成功定位到属于所打开的文本的保存专有词词库105的文件。
步骤S2:在用户选定一个在当前编辑的文本中输入的字符串作为待定制的专有词后,用户利用专有词定制模块判断内存中的专有词词库中是否已存在与当前待定制的专有词相似或是相同的专有词,如果已存在与当前待定制的专有词相似或是相同的专有词,则提示用户当前选定的的作为待定制的专有词已被定制,执行步骤S4;如果不存在与当前待定制的专有词相似或是相同的专有词,则执行步骤S3。当用户自定义了一个新词或新的字符串,用户通过选定第一次输入的新词或新的字符串,利用专有词定制模块103进行专有词的定制。专有词定制模块103是以插件形式运行在文本编辑器102上,用户主动选择是否定制所输入的新字符串。当用户选定的作为待定制的专有词经过专有词定制模块103判断为非第一次输入的新词或新的字符串,则当前选定的待定制的专有词将被拒绝定制。专有词定制模块103判断用户选定的待定制的专有词是否为第一次输入的新词或新的字符串的方法是通过将待定制专有词与内存中的专有词词库105进行语义相似度匹配,判断内存中的专有词词库105是否已存在与当前待定制的专有词相似或是相同的专有词。利用专有词定制模块103进行专有词的定制的具体实施方式可以是通过添加定制操作在右键列表中;或是通过在编辑器中添加一个定制按钮,从而实现专有词的定制。
步骤S3:专有词保存模块104将可以被定制的专有词保存在内存中的专有词词库105及用户当前使用的输入法的词码表中;通过存储现有输入法词码表中的记录所要求的字段及字段数据格式,将专有词词库105中的文本文件标识、编码、拼音和汉语词组字段转换为当前使用的输入法的词码表的字段。
步骤S4:当用户选定当前编辑的文本中的某一字符串时,候选专有词列表构建模块107根据当前输入字符串在内存中的专有词词库105中查找候选专有词,生成候选专有词列表106。用户根据显示的候选专有词列表106确定当前编辑字符串所表达的含义是否已经定义及存在于专有词词库105中。候选专有词列表构建模块107通过使用动态规划方法或相似度查找算法根据当前编辑的字符串在专有词词库105中查找候选专有词。候选专有词列表106的构建是由候选专有词列表构建模块根据当前编辑的文字的完整性采用无编码候选列表生成算法实现。当用户对文本进行编辑时,通过分配给专有词最高的相似度、权重或评分,使所使用的输入法列出的候选专有词列表106中专有词优先列出。
步骤S5:候选专有词显示模块108根据候选专有词与当前用户输入字符串的相似度对候选专有词进行排序。候选专有词列表106显示在当前编辑的文本旁。候选专有词列表106是候选专有词列表构建模块107根据用户主动选定的字符串在专有词词库105中选出与用户主动选定的字符串相近候选专有词,协助用户决定当前编辑的字符串是否为已定制的专有词,从而维持用户前后输入的专有词的一致性。保存专有词词库105的文件将在下次用户打开响应的文档进行编辑时被打开,同时所述文件中保存的专有词词库105中的内容将被加载。最终,通过在用户主动选定某一字符串后,列出候选专有词列表,辅助用户在进行文本编辑的过程中,决定当前编辑的字符串所表达的含义是否与已定制的专有词所表达的含义相同,从而保证用户编辑的文本中新定义的字符串的表述一致性。
所述的文本一致性编辑方法适用于专利撰写、论文撰写等需要定义新词或新的字符串的文本编辑过程中。
上面描述是用于实现本发明及其实施例,本发明的范围不应由该描述来限定,本领域的技术人员应该理解,在不脱离本发明的范围的任何修改或局部替换,均属于本发明权利要求来限定的范围。

Claims (7)

1.一种文本一致性编辑方法,其特征在于:利用专有词词库加载模块、专有词定制模块、专有词保存模块、候选专有词列表构建模块及候选专有词显示模块实现文本一致性编辑的步骤如下:
步骤S1:对文本进行编辑时,专有词词库加载模块通过专有词词库中的文件标识来定位专有词词库,将所定位的专有词词库分别加载到用户当前使用的输入法的词码表中及内存中,支持对专有词词库的进一步查询和更新操作;所述专有词词库用来存放用户在编辑所述专有词词库所属的文本文件过程中定制的所有专有词,专有词词库的记录拥有文本文件标识、编码、拼音和汉语词组字段;根据文本文件标识定位专有词词库所属的文本文件;
步骤S2:在用户选定一个在当前编辑的文本中输入的字符串作为待定制的专有词后,用户利用专有词定制模块判断内存中的专有词词库中是否已存在与当前待定制的专有词相似或是相同的专有词,如果不存在与当前待定制的专有词相似或是相同的专有词,则执行步骤S3;如果已存在与当前待定制的专有词相似或是相同的专有词,则提示用户当前选定的作为待定制的专有词已被定制,执行步骤S4;
步骤S3:专有词保存模块将待定制的专有词保存在内存中的专有词词库及用户当前使用的输入法的词码表中;
步骤S4:候选专有词列表构建模块根据当前编辑的文本中输入的字符串在内存中的专有词词库中查找候选专有词,生成候选专有词列表;候选专有词列表是候选专有词列表构建模块根据用户主动选定的字符串在专有词词库中选出与用户选定的字符串相近候选专有词;
步骤S5:候选专有词显示模块根据候选专有词与当前用户输入字符串的相似度对候选专有词进行排序,列出候选专有词列表,协助用户决定当前编辑的字符串是否为已定制的专有词,从而维持用户前后输入的专有词的一致性。
2.根据权利要求1所述的文本一致性编辑方法,其特征在于:步骤S1所述专有词词库加载模块在保存当前编辑的文本或关闭文本编辑器后,自动将内存中的当前最新版本的专有词词库以文件形式保存在与所属的文本本件相同的路径下,并覆盖原有文件,保存专有词词库的文件的默认属性为隐藏只读。
3.根据权利要求1所述的文本一致性编辑方法,其特征在于:步骤S2所述专有词定制模块是以插件形式运行在文本编辑器上,用户主动选择是否定制所输入的新字符串。
4.根据专利要求1所述的文本一致性编辑方法,其特征在于:步骤S4所述候选专有词列表的构建是由候选专有词列表构建模块根据当前编辑的文字采用无编码候选列表生成算法实现;候选专有词列表构建模块根据用户主动选定的字符串在专有词词库中选出与用户主动选定的字符串相近的候选专有词。
5.根据专利要求1所述的文本一致性编辑方法,其特征在于:步骤S4所述候选专有词列表构建模块根据当前编辑的字符串在专有词词库中查找候选专有词的方法是动态规划方法或相似度查找算法;当用户打开当前文本进行编辑时,候选专有词列表构建模块通过为专有词词库中的专有词分配最高的相似度、权重或评分,使用户当前使用的输入法中已经定制的专有词被优先列出。
6.根据专利要求1所述的文本一致性编辑方法,其特征在于:步骤S5所述协助用户决定当前编辑的字符串是否为已定制的专有词是通过在用户主动选定某一字符串后,列出候选专有词列表来实现;候选专有词列表显示在当前编辑的文本旁;用户根据显示的候选专有词列表确定当前编辑字符串所表达的含义是否已经定义及存在于专有词词库中。
7.根据专利要求1所述的文本一致性编辑方法,其特征在于:在用户进行文本拷贝操作时,步骤S1所述的专有词词库加载模块将提示用户是否将与所属的文本本件在相同的路径下的保存专有词词库的文件同时进行拷贝,保证被拷贝到其他位置的文本在再次打开时可以成功定位到属于所打开的文本的保存专有词词库的文件。
CN 201110076557 2011-03-29 2011-03-29 文本一致性编辑方法 Expired - Fee Related CN102135953B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN 201110076557 CN102135953B (zh) 2011-03-29 2011-03-29 文本一致性编辑方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN 201110076557 CN102135953B (zh) 2011-03-29 2011-03-29 文本一致性编辑方法

Publications (2)

Publication Number Publication Date
CN102135953A CN102135953A (zh) 2011-07-27
CN102135953B true CN102135953B (zh) 2012-12-12

Family

ID=44295741

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 201110076557 Expired - Fee Related CN102135953B (zh) 2011-03-29 2011-03-29 文本一致性编辑方法

Country Status (1)

Country Link
CN (1) CN102135953B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10210171B2 (en) * 2014-06-18 2019-02-19 Microsoft Technology Licensing, Llc Scalable eventual consistency system using logical document journaling
CN105956119A (zh) * 2016-05-06 2016-09-21 长沙市麓智信息科技有限公司 专利撰写辅助系统及其方法
CN109145529B (zh) * 2018-09-12 2021-12-03 重庆工业职业技术学院 一种用于版权认证的文本相似性分析方法与系统
CN109359278A (zh) * 2018-10-26 2019-02-19 苏州浪潮智能软件有限公司 一种编辑并验证XFS PTR Form和Media文件的方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101334774A (zh) * 2007-06-29 2008-12-31 北京搜狗科技发展有限公司 一种字符输入的方法和输入法系统
CN100498658C (zh) * 2006-09-26 2009-06-10 腾讯科技(深圳)有限公司 在中文输入法中调整候选词顺序的方法及装置
CN101256557B (zh) * 2008-04-16 2010-06-23 腾讯科技(深圳)有限公司 自定义词管理装置、方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101615182A (zh) * 2008-06-27 2009-12-30 西门子公司 中医症状信息存储系统及中医症状信息存储方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100498658C (zh) * 2006-09-26 2009-06-10 腾讯科技(深圳)有限公司 在中文输入法中调整候选词顺序的方法及装置
CN101334774A (zh) * 2007-06-29 2008-12-31 北京搜狗科技发展有限公司 一种字符输入的方法和输入法系统
CN101256557B (zh) * 2008-04-16 2010-06-23 腾讯科技(深圳)有限公司 自定义词管理装置、方法

Also Published As

Publication number Publication date
CN102135953A (zh) 2011-07-27

Similar Documents

Publication Publication Date Title
CN102549652B (zh) 信息检索装置
US7912700B2 (en) Context based word prediction
US6782384B2 (en) Method of and system for splitting and/or merging content to facilitate content processing
CN100483416C (zh) 一种字符输入的方法、输入法系统及词库更新的方法
US11550992B2 (en) Correcting errors in copied text
CN108984529A (zh) 实时庭审语音识别自动纠错方法、存储介质及计算装置
CN101458681A (zh) 语音翻译方法和语音翻译装置
CN104485107A (zh) 名称的语音识别方法、语音识别系统和语音识别设备
CN106959977A (zh) 文字输入中的候选集合计算方法及装置、文字纠错方法及装置
WO2005050472A2 (en) Text segmentation and topic annotation for document structuring
KR100905744B1 (ko) 사용자 제작 문답 데이터에 기반한 회화 사전 서비스 제공방법 및 시스템
Dethlefs et al. Conditional random fields for responsive surface realisation using global features
CN102135953B (zh) 文本一致性编辑方法
CN112149419A (zh) 字段的规范化自动命名方法、装置及系统
CN109492126B (zh) 一种智能交互方法及装置
CN102323858B (zh) 识别输入时修改项的输入方法、终端及系统
US20230350929A1 (en) Method and system for generating intent responses through virtual agents
Banerjee et al. Generating abstractive summaries from meeting transcripts
CN112149403A (zh) 一种确定涉密文本的方法和装置
CN116562240A (zh) 文本生成方法、计算机设备及计算机存储介质
Sproat et al. Applications of lexicographic semirings to problems in speech and language processing
KR102540178B1 (ko) 음성 인식 결과를 편집하는 방법
KR102446300B1 (ko) 음성 기록을 위한 음성 인식률을 향상시키는 방법, 시스템, 및 컴퓨터 판독가능한 기록 매체
Steiner et al. Building and Exploiting Lexical Databases for Morphological Parsing
JP2006092198A (ja) データ処理装置およびプログラム

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20121212