CN105159892A - 一种语料提取器及提取语料的方法 - Google Patents

一种语料提取器及提取语料的方法 Download PDF

Info

Publication number
CN105159892A
CN105159892A CN201510541953.3A CN201510541953A CN105159892A CN 105159892 A CN105159892 A CN 105159892A CN 201510541953 A CN201510541953 A CN 201510541953A CN 105159892 A CN105159892 A CN 105159892A
Authority
CN
China
Prior art keywords
language material
corpus
language
text
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510541953.3A
Other languages
English (en)
Other versions
CN105159892B (zh
Inventor
白晓文
陈春纬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Changan University
Original Assignee
Changan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Changan University filed Critical Changan University
Priority to CN201510541953.3A priority Critical patent/CN105159892B/zh
Publication of CN105159892A publication Critical patent/CN105159892A/zh
Application granted granted Critical
Publication of CN105159892B publication Critical patent/CN105159892B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Document Processing Apparatus (AREA)

Abstract

本发明公开了一种语料提取器及提取语料的方法,目的在于:提取所有语种的语料,语料提取准确率高,实现对混杂外语词汇、数字、符号、字母等的语料提取,以及非连续语块的提取,所采用的技术方案为:一种语料提取器包括:设置模块,包括语料库定义单元,对语种名称、编号、以及语种对应的库文件名进行定义;符号定义单元,对各语种对应的句尾标点进行定义,语料匹配的最大范围是句子;语料标识的颜色定义单元,语料提取时轮换用定义的颜色标识;数据库模块,实现语料提取过程语料的存储;语料匹配模块,实现全文搜索语料库中存在的语料标识出来;语料提取模块;语料修正模块;以及语料导出模块,实现语料的导出和入库。

Description

一种语料提取器及提取语料的方法
技术领域
本发明属于计算语言学和翻译技术领域,涉及一种语料提取器及提取语料的方法。
背景技术
发表于《中文信息学报》,2007年1月第21卷第1期的《面向机器辅助翻译的汉语语块自动抽取研究》,提出了一种统计和规则向结合的语块抽取方法。使用Nagao串频统计算法进行基于词语的串频统计,进一步分别利用统计方法、语块边界过滤规则对2-gram到10-gram语块进行过滤,得到候选语块,取得了令人满意的结果。通过试验发现,在统计方法中互信息和信息熵向结合的而方法教单一的互信息方法好;在语块边界规则过滤方法中语块左右边界规则和停用词对语块抽取的结果有较大影响。试验结果表明统计和过滤规则相结合的方法要优于纯粹的统计方法。应用本文方法,再辅以人工校对,可以方便地获取重复出现的多词语块。在机器辅助翻译系统中,使用现有的语块抽取方法抽取重复的语言单位,就可以方便地建设翻译记忆库,提高翻译得工作效率。
詹宏伟(杭州师范大学外国语学院)发表的《语料库中语块提取的工具与方法》,在自然语言处理领域,语言检索的工具和技术进展很快,语块识别的技术也从人工识别进入了机器识别。语块检索技术的起点是从语料库中提取连续的、固定的词串,进过几年的发展,已逐步达到了其高级阶段:提取非连续的可变的语块。本文从语料库研究的角度,分别从连续的语块和非连续的语块两个方面,对应于的语块识别与检索技术和工具进行归纳和评述。
以上现有方法的优点是速度快、效率高,缺点有:1)只适用于单一语种;2)受规则(尤其是边界词语规则)的限制,准确率较低,辅助翻译实践中可用性不高;3)文中出现外语词汇、数字、符号、字母等,尤其位于语块边界时候准确率严重下降,甚至不能识别;4)非连续语块识别率较低。
发明内容
为了解决现有技术中的问题,本发明提出一种能够提取所有语种的语料,语料提取准确率高,解决了混杂外语词汇、数字、符号、字母等的语料提取,以及非连续语块提取问题的语料提取器及提取语料的方法。
为了实现以上目的,本发明所采用的技术方案为:一种语料提取器包括:
设置模块,包括语料库定义单元,对语种名称、编号、以及语种对应的库文件名进行定义;符号定义单元,对各语种对应的句尾标点进行定义,语料匹配的最大范围是句子;语料标识的颜色定义单元,语料提取时轮换用定义的颜色标识;
数据库模块,实现语料提取过程语料的存储;
语料匹配模块,实现全文搜索语料库中存在的语料标识出来,作为人工提取的参考;
语料提取模块,实现人工提取语料;
语料修正模块,实现人工修改语料;
以及语料导出模块,实现语料的导出和入库。
一种提取语料的方法,包括以下步骤:
1)打开文本,根据需要选择语种,根据定义好的语种找到对应的语料库,并定义句尾符号以及语料提取时轮换用定义的颜色标识;
2)根据语料库中已有的语料自动匹配语料,匹配上的语料标注颜色,同时已经匹配上的语料自动罗列于语料表中,同时显示该语料出现频率;
3)对已经匹配的语料进行修正,修正后的语料在语料表中同步修正;
4)对没有匹配的预料进行人工提取,检索并选定需要提取的语料,将该语料提取至语料表,同时将打开的文本中所有同样的语料标识出来,并且显示该语料出现频率;
5)提取完所有语料后,以文本格式导出语料的同时,所有语料同时入语料库,相同语料覆盖。
进一步,所述步骤1)中通过Word内嵌的Com技术,将Word嵌入提取界面,通过Com接口操控Word,打开文本。
更进一步,所述步骤1)中的文本为word文件、excel文件或txt文件,打开txt和word文件时调用Word打开文本,打开excel文件时调用excel的Com接口将excel表格文件保存成txt文件,然后再调用Word打开。
进一步,所述步骤2)中语料自动匹配采用二分搜索算法查找,从句子的第一个字符开始搜索语料库得到最大匹配的语料,如果没有匹配,则从下个字符开始,依次搜索完整个句子,完成句子范围的语料匹配,循环对全文每个句子处理,完成全文的语料的匹配。
进一步,所述步骤3)中修正模块调出已经确定的语料和对应的全文,选择要修正的语料时,程序自动搜索全文,选中该条语料,提供对应的语言环境参考,人工重新选择语料的范围,修正语料,并替换语料列表中的语料,同时搜索全文相同的新语料,加上颜色标识,并统计新语料的显示频率,更改语料列表中新语料的频率。
进一步,所述步骤4)中对于非连续语料,选定后提取至语料表,逐次提取直至提取完所有语料,同时显示该语料出现频率。
更进一步,所述步骤4)中语料提取时,通过定义的系统热键,触发提取过程,调用WordCom接口取到选择的语料,调用WordCom接口循环搜索相同语料,调用WordCom接口实现语料以定义的颜色标识,并统计语料出现的频率,将语料和频率插入语料表中,更新术语列表的语料和频率。
进一步,所述步骤5)中首先根据提取语料导出选择按语料的文本顺序、提取的时间或频率排序,然后导出纯文本格式的语料文件。
更进一步,所述步骤5)中语料全文确定完成后,对语料入库作为以后提取的参考,循环对每条语料搜索,如果查到语料库中已有,则不入库,如果查不到,则查到语料入库的位置,在该位置插入一条语料。
与现有技术相比,本发明的提取器适用于所有语种,将全语种进行内嵌,具有语料提取模块,便于人工提取语料,准确性由使用者人为控制,不用制定规则;具有符号定义单元,可提取混杂外语词汇、数字、符号、字母等的语料;带有统计功能,可实时提供任一语料重复次数;具有记忆功能,在文本导入的时候,利用语料匹配模块根据语料库已有内容自动匹配,没有匹配的语料由语料提取模块人工提取,全文提取并修正后导出语料的时候,可将库中没有的语料导入到语料库中,方便以后提取。
本发明的方法中首先定义语种、句尾符号以及语料提取时轮换用定义的颜色标识,可提取混杂外语词汇、数字、符号、字母等的语料;根据语料库中已有的语料进行自动匹配并修正,同时带有统计功能,可实时提供任一语料重复次数;对于没有自动匹配的语料进行人工提取,使用者人为控制准确性,准确率高,不用制定规则;对于非连续语料,选定后逐次提取至语料表,直至提取完所有语料,解决了非连续语块提取的问题,本发明方法适用于所有语种,提取准确性由使用者人为控制,不用制定规则,可提取混杂外语词汇、数字、符号、字母等的语料,带有统计功能,可实时提供任一语料重复次数,具有记忆功能,在文本导入的时候,可根据记忆库已有内容自动匹配,人工提取完毕后,导出语料的时候,可将库中没有的语料导入到库中,方便以后提取。
具体实施方式
下面结合具体的实施例对本发明作进一步的解释说明。
一种语料提取器,包括:
设置模块,包括语料库定义单元,对语种名称、编号、以及语种对应的库文件名进行定义;符号定义单元,对各语种对应的句尾标点进行定义,语料匹配的最大范围是句子;语料标识的颜色定义单元,语料提取时轮换用定义的颜色标识;
数据库模块,实现语料提取过程语料的存储;
语料匹配模块,实现全文搜索语料库中存在的语料标识出来,作为人工提取的参考;
语料提取模块,实现人工提取语料;
语料修正模块,实现人工修改语料;
以及语料导出模块,实现语料的导出和入库。
一种提取语料的方法,包括以下步骤:
1)打开文本,根据需要选择语种,根据定义好的语种找到对应的语料库,并定义句尾符号以及语料提取时轮换用定义的颜色标识;通过Word内嵌的Com技术,将Word嵌入提取界面,通过Com接口操控Word,打开文本,文本为word文件、excel文件或txt文件,打开txt和word文件时调用Word打开文本,打开excel文件时调用excel的Com接口将excel表格文件保存成txt文件,然后再调用Word打开;
2)根据语料库中已有的语料自动匹配语料,匹配上的语料标注颜色,同时已经匹配上的语料自动罗列于语料表中,同时显示该语料出现频率;语料自动匹配采用二分搜索算法查找,从句子的第一个字符开始搜索语料库得到最大匹配的语料,如果没有匹配,则从下个字符开始,依次搜索完整个句子,完成句子范围的语料匹配,循环对全文每个句子处理,完成全文的语料的匹配;
3)对已经匹配的语料进行修正,修正后的语料在语料表中同步修正;修正时修正模块调出已经确定的语料和对应的全文,选择要修正的语料时,程序自动搜索全文,选中该条语料,提供对应的语言环境参考,人工重新选择语料的范围,修正语料,并替换语料列表中的语料,同时搜索全文相同的新语料,加上颜色标识,并统计新语料的显示频率,更改语料列表中新语料的频率;
4)对没有匹配的预料进行人工提取,检索并选定需要提取的语料,将该语料提取至语料表,同时将打开的文本中所有同样的语料标识出来,并且显示该语料出现频率;对于非连续语料,选定后提取至语料表,逐次提取直至提取完所有语料,同时显示该语料出现频率;语料提取时,通过定义的系统热键,触发提取过程,调用WordCom接口取到选择的语料,调用WordCom接口循环搜索相同语料,调用WordCom接口实现语料以定义的颜色标识,并统计语料出现的频率,将语料和频率插入语料表中,更新术语列表的语料和频率;
5)提取完所有语料后,以文本格式导出语料的同时,所有语料同时入语料库,相同语料覆盖,首先根据提取语料导出选择按语料的文本顺序、提取的时间或频率排序,然后导出纯文本格式的语料文件,语料全文确定完成后,对语料入库作为以后提取的参考,循环对每条语料搜索,如果查到语料库中已有,则不入库,如果查不到,则查到语料入库的位置,在该位置插入一条语料。
本发明方法完整的步骤:
步骤一:打开文本:打开工具,选择语言,打开需要提取语料的文本(可为word文件、excel文件和txt文件等);
程序调用微软的MicrosoftWord处理语料的提取,通过Word内嵌的Com技术,Word作为软件的一部分嵌入软件的界面,通过Com接口操控Word,打开文件时,txt和word文件调用Word打开文件的方法,excel调用excel的Com接口将excel表格文件保存成txt文件,然后再调用Word打开,打开文件时,需要选择语种,软件根据定义好的语种找到对应的语料库;
步骤二:自动匹配:打开文本后,根据语料库中已有的语料自动匹配语料,匹配上的语料标注颜色(颜色可自行设定),同时已经匹配上的语料自动罗列于语料表中,同时显示该语料出现频率;
语料库以文件保存,不同语种程序配置不同的文件,新增语料添加入语料库按顺序插入,匹配的时候采用二分搜索算法查找,从句子的第一个字符开始搜索语料库得到最大匹配的语料,如果没有匹配,则从下个字符开始,依次搜索完整个句子,完成句子范围的语料匹配,循环对全文每个句子处理,完成全文的语料的匹配;
语料标注颜色可定义多种,对识别的语料按定义的多种颜色轮流标识,多个语料连续从颜色得到区分,人工选择语料提取时,搜索全文相同的语料,加上颜色标识,并统计语料的显示频率,以列表的形式分两栏显示提取的语料及在全文中出现的次数;
步骤三:匹配语料修正:对已经匹配的语料进行修正,修正后的语料在语料表中同步修正;语料提取是直接从语料中由程序复制过来,提取问题不存在拼写错误,只存在语料选择范围过大或过小的问题,修正模块对已经提取的语料进行修改替换,修正模块调出已经确定的语料和对应的全文,选择要修正的语料时,程序自动搜索全文,选中该条语料,提供对应的语言环境参考,人工重新选择语料的范围,按clr+2即可实现语料的修正,替换语料列表中的语料,同时搜索全文相同的新语料,加上颜色标识,并统计新语料的显示频率,更改语料列表中新语料的频率;
步骤四:人工提取语料:从头到尾人工检索,需要提取的语料选定后,点击快捷键“Ctrl+1”提取至语料表,同时将打开的文件中所有同样的语料标识出来,并且显示该语料出现频率;非连续语料,可按下shift键选定,点击快捷键“Ctrl+1”提取至语料表,直至提取完所有语料,同时显示该语料出现频率;
语料提取时,通过定义的系统热键,触发提取过程,程序调用WordCom接口取到选择的语料,调用WordCom接口循环搜索相同语料,调用WordCom接口实现语料以定义的颜色标识,并统计语料出现的频率,将语料和频率插入语料表中,更新术语列表的语料和频率,语料显示可以按照语料的文字顺序、添加先后顺序,频率等显示;
步骤五:导出语料:提取完所有语料后,即可导出语料,导出格式可选(word、excel、txt等),可选择是否显示语料出现频率,也可选择和修改语料出现频率显示方式;导出语料的同时,所有语料同时入库(相同语料覆盖),首先根据提取语料导出选择排序,可以按语料的文本顺序,提取的时间,频率多少排序,然后导出纯文本格式的语料文件,如果是word、excel,调用对应Com接口导出,语料全文确定完成后,对语料入库作为以后提取的参考,循环对每条语料搜索,如果查到语料库中已有,则不入库;如果查不到,则查到语料入库的位置,在该位置插入一条语料,入库插入过程,自动消除。
本发明的预料提取器包括:软件设置模块:1、语料库定义单元,定义语种名称和编号,语种对应的库文件名;2、符号定义单元,定义各语种对应的句尾标点,语料匹配的最大范围是句子;3、语料标识的颜色定义单元,语料提取时轮换用定义的颜色标识;数据库模块:实现语料提取过程语料的存储;语料匹配模块:全文搜索语料库中存在的语料,标识出来,作为人工提取的参考;语料提取模块:人工提取语料的实现;语料修正模块:人工修改语料的实现;以及语料导出模块:实现语料的导出和入库。
本发明解决了已有提取器只适应于一个语种的问题,本发明可提取所有语种的语料,应用性强;解决了语料提取准确率的问题,采用人工判断,无需更多的规则,准确性由使用者人为控制,不用制定规则,所以基本不存在准确率问题;解决了混杂外语词汇、数字、符号、字母等的语料提取的问题,可提取混杂外语词汇、数字、符号、字母等的语料;解决了非连续语块提取问题,带有统计功能,可实时提供任一语料重复次数;本发明带有记忆功能,在文本导入的时候,可根据记忆库已有内容自动匹配,人工提取完毕后,导出语料的时候,可将库中没有的语料导入到库中,方便以后提取。

Claims (10)

1.一种语料提取器,其特征在于,包括:
设置模块,包括语料库定义单元,对语种名称、编号、以及语种对应的库文件名进行定义;符号定义单元,对各语种对应的句尾标点进行定义,语料匹配的最大范围是句子;语料标识的颜色定义单元,语料提取时轮换用定义的颜色标识;
数据库模块,实现语料提取过程语料的存储;
语料匹配模块,实现全文搜索语料库中存在的语料标识出来,作为人工提取的参考;
语料提取模块,实现人工提取语料;
语料修正模块,实现人工修改语料;
以及语料导出模块,实现语料的导出和入库。
2.一种提取语料的方法,其特征在于,包括以下步骤:
1)打开文本,根据需要选择语种,根据定义好的语种找到对应的语料库,并定义句尾符号以及语料提取时轮换用定义的颜色标识;
2)根据语料库中已有的语料自动匹配语料,匹配上的语料标注颜色,同时已经匹配上的语料自动罗列于语料表中,同时显示该语料出现频率;
3)对已经匹配的语料进行修正,修正后的语料在语料表中同步修正;
4)对没有匹配的预料进行人工提取,检索并选定需要提取的语料,将该语料提取至语料表,同时将打开的文本中所有同样的语料标识出来,并且显示该语料出现频率;
5)提取完所有语料后,以文本格式导出语料的同时,所有语料同时入语料库,相同语料覆盖。
3.根据权利要求2所述的一种提取语料的方法,其特征在于,所述步骤1)中通过Word内嵌的Com技术,将Word嵌入提取界面,通过Com接口操控Word,打开文本。
4.根据权利要求3所述的一种提取语料的方法,其特征在于,所述步骤1)中的文本为word文件、excel文件或txt文件,打开txt和word文件时调用Word打开文本,打开excel文件时调用excel的Com接口将excel表格文件保存成txt文件,然后再调用Word打开。
5.根据权利要求2所述的一种提取语料的方法,其特征在于,所述步骤2)中语料自动匹配采用二分搜索算法查找,从句子的第一个字符开始搜索语料库得到最大匹配的语料,如果没有匹配,则从下个字符开始,依次搜索完整个句子,完成句子范围的语料匹配,循环对全文每个句子处理,完成全文的语料的匹配。
6.根据权利要求2所述的一种提取语料的方法,其特征在于,所述步骤3)中修正模块调出已经确定的语料和对应的全文,选择要修正的语料时,程序自动搜索全文,选中该条语料,提供对应的语言环境参考,人工重新选择语料的范围,修正语料,并替换语料列表中的语料,同时搜索全文相同的新语料,加上颜色标识,并统计新语料的显示频率,更改语料列表中新语料的频率。
7.根据权利要求2所述的一种提取语料的方法,其特征在于,所述步骤4)中对于非连续语料,选定后提取至语料表,逐次提取直至提取完所有语料,同时显示该语料出现频率。
8.根据权利要求7所述的一种提取语料的方法,其特征在于,所述步骤4)中语料提取时,通过定义的系统热键,触发提取过程,调用WordCom接口取到选择的语料,调用WordCom接口循环搜索相同语料,调用WordCom接口实现语料以定义的颜色标识,并统计语料出现的频率,将语料和频率插入语料表中,更新术语列表的语料和频率。
9.根据权利要求2所述的一种提取语料的方法,其特征在于,所述步骤5)中首先根据提取语料导出选择按语料的文本顺序、提取的时间或频率排序,然后导出纯文本格式的语料文件。
10.根据权利要求9所述的一种提取语料的方法,其特征在于,所述步骤5)中语料全文确定完成后,对语料入库作为以后提取的参考,循环对每条语料搜索,如果查到语料库中已有,则不入库,如果查不到,则查到语料入库的位置,在该位置插入一条语料。
CN201510541953.3A 2015-08-28 2015-08-28 一种语料提取器及提取语料的方法 Expired - Fee Related CN105159892B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510541953.3A CN105159892B (zh) 2015-08-28 2015-08-28 一种语料提取器及提取语料的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510541953.3A CN105159892B (zh) 2015-08-28 2015-08-28 一种语料提取器及提取语料的方法

Publications (2)

Publication Number Publication Date
CN105159892A true CN105159892A (zh) 2015-12-16
CN105159892B CN105159892B (zh) 2018-04-03

Family

ID=54800750

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510541953.3A Expired - Fee Related CN105159892B (zh) 2015-08-28 2015-08-28 一种语料提取器及提取语料的方法

Country Status (1)

Country Link
CN (1) CN105159892B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105677706A (zh) * 2015-12-28 2016-06-15 武汉传神信息技术有限公司 一种语料检索匹配方法
CN105843802A (zh) * 2016-03-31 2016-08-10 长安大学 翻译中语料介入模块及方法
CN109460501A (zh) * 2018-11-15 2019-03-12 成都傅立叶电子科技有限公司 一种全局检索作战辅助决策系统及方法
CN110321406A (zh) * 2019-05-20 2019-10-11 四川轻化工大学 一种基于VBScript的酒类语料检索方法
CN112083844A (zh) * 2020-09-08 2020-12-15 李艺殊 一种用于搜索语料库的交互系统及交互方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101034395A (zh) * 2007-03-30 2007-09-12 传神联合(北京)信息技术有限公司 一种待译文件处理系统及使用这种系统的文件处理方法
CN101075230A (zh) * 2006-05-18 2007-11-21 中国科学院自动化研究所 一种基于语块的中文机构名翻译方法及装置
US20080154577A1 (en) * 2006-12-26 2008-06-26 Sehda,Inc. Chunk-based statistical machine translation system
CN102144229A (zh) * 2008-10-02 2011-08-03 国际商业机器公司 用于从具有文本段的文档中提取术语的系统
US20140188457A1 (en) * 2012-12-27 2014-07-03 International Business Machines Corporation Real-time sentiment analysis for synchronous communication
CN104063382A (zh) * 2013-03-19 2014-09-24 中国石油天然气股份有限公司 面向油气管道领域的多策略融合的标准术语处理方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101075230A (zh) * 2006-05-18 2007-11-21 中国科学院自动化研究所 一种基于语块的中文机构名翻译方法及装置
US20080154577A1 (en) * 2006-12-26 2008-06-26 Sehda,Inc. Chunk-based statistical machine translation system
CN101034395A (zh) * 2007-03-30 2007-09-12 传神联合(北京)信息技术有限公司 一种待译文件处理系统及使用这种系统的文件处理方法
CN102144229A (zh) * 2008-10-02 2011-08-03 国际商业机器公司 用于从具有文本段的文档中提取术语的系统
US20140188457A1 (en) * 2012-12-27 2014-07-03 International Business Machines Corporation Real-time sentiment analysis for synchronous communication
CN104063382A (zh) * 2013-03-19 2014-09-24 中国石油天然气股份有限公司 面向油气管道领域的多策略融合的标准术语处理方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
DELPHINE BERNHARD: "Multilingual Term Extraction from Domain-specific Corpora Using Morphological Structure", 《PROCEEDINGS OF THE ELEVENTH CONFERENCE OF THE EUROPEAN CHAPTER OF THE ASSOCIATION FOR COMPUTATIONAL LINGUISTICS:POSTERS&DEMONSTRATIONS》 *
詹宏伟: "语料库中语块提取的工具与方法", 《外语教学》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105677706A (zh) * 2015-12-28 2016-06-15 武汉传神信息技术有限公司 一种语料检索匹配方法
CN105843802A (zh) * 2016-03-31 2016-08-10 长安大学 翻译中语料介入模块及方法
CN109460501A (zh) * 2018-11-15 2019-03-12 成都傅立叶电子科技有限公司 一种全局检索作战辅助决策系统及方法
CN110321406A (zh) * 2019-05-20 2019-10-11 四川轻化工大学 一种基于VBScript的酒类语料检索方法
CN112083844A (zh) * 2020-09-08 2020-12-15 李艺殊 一种用于搜索语料库的交互系统及交互方法
CN112083844B (zh) * 2020-09-08 2024-04-09 李艺殊 一种用于搜索语料库的交互系统及交互方法

Also Published As

Publication number Publication date
CN105159892B (zh) 2018-04-03

Similar Documents

Publication Publication Date Title
CN105159892A (zh) 一种语料提取器及提取语料的方法
CN103077164B (zh) 文本分析方法及文本分析器
CN104008166B (zh) 一种基于形态和语义相似度的对话短文本聚类方法
CN101770446B (zh) 一种版式文件中表格识别方法及系统
CN1936892A (zh) 图像内容语义标注方法
CN104008091A (zh) 一种基于情感值的网络文本情感分析方法
WO1994019755A1 (en) Method and system for translating documents using translation handles
CN104951469B (zh) 优化语料库的方法和装置
CN103186524A (zh) 一种地名识别方法和装置
CN105824804A (zh) 基于词库的英语拼写纠错工具和方法
CN108734110A (zh) 基于最长公共子序列的文本段落识别对比方法及系统
CN101271451A (zh) 计算机辅助翻译的方法和装置
CN102033614B (zh) 一种智能组合的公式输入方法及系统
CN105843960A (zh) 基于语义树的索引方法和系统
CN105183838A (zh) 一种基于素材获取的文本编辑方法及系统
CN109543023B (zh) 基于trie和LCS算法的文献分类方法和系统
CN103927176A (zh) 一种基于层次主题模型的程序特征树的生成方法
CN114004221A (zh) 一种表格内容的校正方法及装置
Armstrong Multext: Multilingual text tools and corpora
CN107145244A (zh) 一种异形字符输入方法、装置及电子设备
CN101833376A (zh) 基于汉字拆分的智能语句级汉字输入系统
CN109213988A (zh) 基于N-gram模型的弹幕主题提取方法、介质、设备及系统
CN107967303B (zh) 语料显示的方法及装置
CN114298058B (zh) 文章替换词推荐方法、系统、计算机可读介质
CN105843802A (zh) 翻译中语料介入模块及方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20180403

Termination date: 20200828

CF01 Termination of patent right due to non-payment of annual fee