CN109033093A - 一种基于相似度匹配的文本翻译方法 - Google Patents
一种基于相似度匹配的文本翻译方法 Download PDFInfo
- Publication number
- CN109033093A CN109033093A CN201810705011.8A CN201810705011A CN109033093A CN 109033093 A CN109033093 A CN 109033093A CN 201810705011 A CN201810705011 A CN 201810705011A CN 109033093 A CN109033093 A CN 109033093A
- Authority
- CN
- China
- Prior art keywords
- text
- sentence
- similarity
- webpage
- server
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/42—Data-driven translation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于相似度匹配的文本翻译方法,通过获取用户上传的待翻译文件;对所述翻译文件进行分词处理,依次从分词库中匹配出相同的分词,并基于翻译库查找出与该分词相对应的译文;根据分词所在句子的排列顺序,将所述译文排列成第一文本;服务器依次计算第一文本中各个句子与标准库中第二文本所含句子之间的相似度;将第二文本中与第一文本句子相似度最高的句子判定为最佳翻译文本;将各个句子的最佳翻译文本按照第一文本中句子的排列顺序整合为翻译文件。本发明公开的翻译方法,在现有技术的基础上,增加了相似文本匹配的步骤,提高了文本翻译的准确性。
Description
技术领域
本发明数据处理领域,尤其涉及一种基于相似度匹配的文本翻译方法。
背景技术
现代社会是信息爆炸的社会,互联网上存在着海量的数据。现有技术中,由于全球资源共享,用户可能会产生对多个文本进行翻译的需求,比如:外国文献的语言是一般用户不懂的,需要对其进行翻译,或者新引进的技术资料,需要对其进行翻译,从而实现大家都知悉其具体内容。
现有技术中的文件翻译方法一般是由人工将稿件阅读完后进行翻译,或者通过专门的翻译软件进行翻译,但是人工翻译效率低,专门的翻译软件则过于机械化,错误率高,无法满足用户的需求。
因此,现有技术有待于进一步的改进。
发明内容
鉴于上述现有技术中的不足之处,本发明的目的在于为用户提供一种基于相似度匹配的文本翻译方法,克服现有技术中文本翻译效率低或者翻译效果差的缺陷。
本发明公开了一种基于相似度匹配的文本翻译方法,其中,所述方法包括:
服务器获取用户上传的待翻译文件;
服务器对所述翻译文件进行分词处理,依次从分词库中匹配出相同的分词,并基于翻译库查找出与该分词相对应的译文;
根据分词所在句子的排列顺序,将所述译文排列成第一文本;
服务器依次计算第一文本中各个句子与标准库中第二文本所含句子之间的相似度;
将第二文本中与第一文本句子相似度最高的句子判定为最佳翻译文本;
将各个句子的最佳翻译文本按照第一文本中句子的排列顺序整合为翻译文件。
可选的,所述步骤还包括:
预先建立分词库和标准库,所述分词库中含有与中文相对应的句子,所述标准库中含有各种标准句子及其翻译文本。
可选的,所述服务器依次计算第一文本中各个句子与标准库中第二文本所含句子之间的相似度的步骤:
所述服务器对所述第一文本中的文本块进行拆解得到若干候选句子;
所述服务器确定各候选句子的重要性分数;
所述服务器提取重要性分数大于预设值的目标句子作为所述第一文本的关键信息;
所述服务器将所述第一文本的关键信息与各个第二文本中的关键信息进行对比得出第一文本与第二文本之间的相似度。
可选的,所述服务器对所述第一文本进行拆解得到若干候选句子的步骤中,对第一文本中的文本块进行拆分的方法为:
按照标点符号进行拆解;其中,所述标点符号为分号、逗号、句号时,进行拆解,当标点符号为顿号、冒号、引号时,不进行拆解。
可选的,所述服务器确定各候选句子的重要性分数的步骤包括:
判断所述候选句子中是否包含中文句子和/或网页链接地址;
若仅仅含有中文句子,则将中文句子中各词组的权值之和作为所述候选句子的重要性分数;
若仅仅含有网页链接地址,则将所述网页链接地址对应网页中所含页面元素的权值之和作为所述候选句子的重要性分数;
若同时含有中文句子和网页链接地址,则将中文句子中各词组的权值之和和网页链接地址所对应网页中所含页面元素的权值之和的加权平均值作为所述候选句子的重要性分数。
可选的,所述将中文句子中各词组的权值之和作为所述候选句子的重要性分数的步骤包括:
按照语义分析的方式再将每个候选句子拆分为若干个词组;
进行全文检索,计算各词组出现的次数;
按照出现次数由高到低的顺序对各词组进行排序,每个词组按照出现次数赋予相应的权值,出现次数越高,权值越高;
根据各词组的权值,计算各候选句子的重要性分数,该重要性分数即为该候选句子中各词组的权值之和。
可选的,所述将所述网页链接地址对应网页中所含页面元素的权值之和作为所述候选句子的重要性分数步骤包括:
服务器后台开启该网页链接地址对应的目标网页;
服务器根据该目标网页中所含页面元素确定所述目标网页的重要性分数。
可选的,所述服务器根据该目标网页中所含页面元素确定所述目标网页的重要性分数的步骤包括:
使用下面的公式确定目标网页的重要性分数;
其中,S(Vi)是目标网页的重要性分数,d是阻尼系数,一般设置为0.85,In(Vi)是存在指向目标网页的链接的网页集合。out(Vj)是网页j中的链接存在的链接指向的网页集合,out(Vj)取绝对值是用以表示该网页集合中元素的个数,S(Vj)是网页j的重要性分数。
可选的,所述服务器将所述第一文本的关键信息与第二文本的关键信息进行相似度对比的步骤包括:
计算第一文本的关键信息中的第一句子与第二文本的关键信息中的第二句子的余弦相似度;
若余弦相似度高于预设值,则确定第一文本与第二文本近似。
可选的,所述余弦相似度的计算方法为:
将第一句子拆分为若干个词组;
将第二句子拆分为若干个词组;
将两组词组进行逐一对比,若存在,则记录为1,若不存在,则记录为0,得到第一序列和第二序列;
计算第一序列和第二序列之间的余弦相似度,并作为第一句子和第二句子之间的余弦相似度。
有益效果,本发明公开了一种基于相似度匹配的文本翻译方法,通过获取用户上传的待翻译文件;对所述翻译文件进行分词处理,依次从分词库中匹配出相同的分词,并基于翻译库查找出与该分词相对应的译文;根据分词所在句子的排列顺序,将所述译文排列成第一文本;服务器依次计算第一文本中各个句子与标准库中第二文本所含句子之间的相似度;将第二文本中与第一文本句子相似度最高的句子判定为最佳翻译文本;将各个句子的最佳翻译文本按照第一文本中句子的排列顺序整合为翻译文件。本发明公开的翻译方法,在现有技术的基础上,增加了相似文本匹配的步骤,提高了文本翻译的准确性。
附图说明
图1为本发明所公开的一种基于相似度匹配的文本翻译方法的具体实施例步骤流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明公开一种基于相似度匹配的文本翻译方法,如图1所示,所述方法包括:
步骤S101、服务器获取用户上传的待翻译文件,对所述翻译文件进行分词处理,依次从分词库中匹配出相同的分词,并基于翻译库查找出与该分词相对应的译文。
用户将需要翻译的文件上传到服务器上,可以通过客户端上传,也可以直接上传,满足服务器获取到所述待翻译文件即可。本步骤中对获取到的待翻译文件进行分词处理,即是将其中所含内容中的每个句子所含词语进行分词处理,划分出多个分词,依次对待翻译文件中所含的句子进行分词处理。
根据获取到的分词从翻译库中查找出相对应的分词,并查找与查找出的分词相对应的译文。
步骤S102、根据分词所在句子的排列顺序,将所述译文排列成第一文本。
将每个分词的译文整合成第一文本,所整合的步骤为根据分词在待翻译文件中的排列步骤,将所述译文排列成第一文本。
步骤S103、服务器依次计算第一文本中各个句子与标准库中第二文本所含句子之间的相似度。
服务器依次计算第一文本中各个句子与标准库中第二文本所含句子之间的相似度。
所述标准库中含有各种标准的句子库,属于从网络中收集到的各种符合语文语法文件的文本信息。本步骤中从标准库中匹配出与第一文本中各个句子相似度最高的标准句子,所述标准句子为与第一文本相对应的最佳译文。
步骤S104、将第二文本中与第一文本句子相似度最高的句子判定为最佳翻译文本,将各个句子的最佳翻译文本按照第一文本中句子的排列顺序整合为翻译文件
具体的,所述步骤还包括:
预先建立分词库和标准库,所述分词库中含有与中文相对应的句子,所述标准库中含有各种标准句子及其翻译文本。
具体的,所述服务器依次计算第一文本中各个句子与标准库中第二文本所含句子之间的相似度的步骤包括:
所述服务器对所述第一文本中的文本块进行拆解得到若干候选句子;
所述服务器确定各候选句子的重要性分数;
所述服务器提取重要性分数大于预设值的目标句子作为所述第一文本的关键信息;
所述服务器将所述第一文本的关键信息与各个第二文本中的关键信息进行对比得出第一文本与第二文本之间的相似度。
进一步的,所述服务器依次计算第一文本与第二文本之间的相似度的步骤包括:
所述服务器对所述第一文本进行拆解得到若干候选句子;
所述服务器确定各候选句子的重要性分数;
所述服务器提取重要性分数大于预设值的目标句子作为所述第一文本的关键信息;
所述服务器将所述第一文本的关键信息与各个第二文本的关键信息进行对比得出相似度。
在具体实施例中,所述服务器对所述第一文本进行拆解得到若干候选句子的步骤中,对第一文本进行拆分的方法为:
按照标点符号进行拆解;其中,所述标点符号为分号、逗号、句号时,进行拆解,当标点符号为顿号、冒号、引号时,不进行拆解。
所述服务器确定各候选句子的重要性分数;
所述服务器提取重要性分数大于预设值的目标句子作为所述第一文本的关键信息;
所述服务器将所述第一文本的关键信息与第二文本的关键信息进行相似度对比,并将比对出的相似度值判定为所述第一文本与第二文本之间的相似度值。
进一步的,由于各个候选句子中可能包含不同属性的信息,也即是候选句子可能含有中文句子或者网页链接地址,所以在进行重要性分数的计算之前,所述服务器确定各候选句子的重要性分数的步骤包括:
判断所述候选句子中是否包含中文句子和/或网页链接地址;
若仅仅含有中文句子,则将中文句子中各词组的权值之和作为所述候选句子的重要性分数;
若仅仅含有网页链接地址,则将所述网页链接地址对应网页中所含页面元素的权值之和作为所述候选句子的重要性分数;
若同时含有中文句子和网页链接地址,则将中文句子中各词组的权值之和和网页链接地址所对应网页中所含页面元素的权值之和的加权平均值作为所述候选句子的重要性分数。
所述将中文句子中各词组的权值之和作为所述候选句子的重要性分数的步骤包括:
按照语义分析的方式再将每个候选句子拆分为若干个词组;
进行全文检索,计算各词组出现的次数;
按照出现次数由高到低的顺序对各词组进行排序,每个词组按照出现次数赋予相应的权值,出现次数越高,权值越高;
根据各词组的权值,计算各候选句子的重要性分数,该重要性分数即为该候选句子中各词组的权值之和。
进一步的,所述将所述网页链接地址对应网页中所含页面元素的权值之和作为所述候选句子的重要性分数步骤包括:
服务器后台开启该网页链接地址对应的目标网页;
服务器根据该目标网页中所含页面元素确定所述目标网页的重要性分数。
所述服务器根据该目标网页中所含页面元素确定所述目标网页的重要性分数的步骤包括:
使用下面的公式确定目标网页的重要性分数;
其中,S(Vi)是目标网页的重要性分数,d是阻尼系数,一般设置为0.85,In(Vi)是存在指向目标网页的链接的网页集合。out(Vj)是网页j中的链接存在的链接指向的网页集合,out(Vj)取绝对值是用以表示该网页集合中元素的个数,S(Vj)是网页j的重要性分数。
具体的,所述服务器将所述第一文本的关键信息与第二文本的关键信息进行相似度对比的步骤包括:
计算第一文本的关键信息中的第一句子与第二文本的关键信息中的第二句子的余弦相似度;
若余弦相似度高于预设值,则确定第一文本与第二文本近似。
具体的,所述余弦相似度的计算方法为:
将第一句子拆分为若干个词组;
将第二句子拆分为若干个词组;
将两组词组进行逐一对比,若存在,则记录为1,若不存在,则记录为0,得到第一序列和第二序列;
计算第一序列和第二序列之间的余弦相似度,并作为第一句子和第二句子之间的余弦相似度。
例如:
第一句子为:Today the Association held a meeting in Beijing
第二句子为:The Association held a Franco-Prussian meeting in Beijing。
则第一序列a为(1,1,1,1,0,1),第二序列b为(0,1,1,1,1,1)。
较佳的,本方法步骤中使用以下公式所述计算第一序列和第二序列之间的余弦相似度的计算:
其中,ab表示a序列的中元素与b序列中相应的元素相乘后整体相加,分母表示a序列中所有元素的平方和开根号后乘以a序列中所有元素的平方和开根号。
例如,上述两个句子计算的结果为:
最终的计算结果为:0.8。
本发明提供了本发明公开了一种基于相似度匹配的文本翻译方法,通过获取用户上传的待翻译文件;对所述翻译文件进行分词处理,依次从分词库中匹配出相同的分词,并基于翻译库查找出与该分词相对应的译文;根据分词所在句子的排列顺序,将所述译文排列成第一文本;服务器依次计算第一文本中各个句子与标准库中第二文本所含句子之间的相似度;将第二文本中与第一文本句子相似度最高的句子判定为最佳翻译文本;将各个句子的最佳翻译文本按照第一文本中句子的排列顺序整合为翻译文件。本发明公开的翻译方法,在现有技术的基础上,增加了相似文本匹配的步骤,提高了文本翻译的准确性。
可以理解的是,对本领域普通技术人员来说,可以根据本发明的技术方案及其发明构思加以等同替换或改变,而所有这些改变或替换都应属于本发明所附的权利要求的保护范围。
Claims (10)
1.一种基于相似度匹配的文本翻译方法,其特征在于,所述方法包括:
服务器获取用户上传的待翻译文件,对所述翻译文件进行分词处理,依次从分词库中匹配出相同的分词,并基于翻译库查找出与该分词相对应的译文;
根据分词所在句子的排列顺序,将所述译文排列成第一文本;
服务器依次计算第一文本中各个句子与标准库中第二文本所含句子之间的相似度;
将第二文本中与第一文本句子相似度最高的句子判定为最佳翻译文本;
将各个句子的最佳翻译文本按照第一文本中句子的排列顺序整合为翻译文件。
2.根据权利要求1所述的基于相似度匹配的文本翻译方法,其特征在于,所述步骤还包括:
预先建立分词库和标准库,所述分词库中含有与中文相对应的句子,所述标准库中含有各种标准句子及其翻译文本。
3.根据权利要求2所述的基于相似度匹配的文本翻译方法,其特征在于,所述服务器依次计算第一文本中各个句子与标准库中第二文本所含句子之间的相似度的步骤包括:
所述服务器对所述第一文本中的文本块进行拆解得到若干候选句子;
所述服务器确定各候选句子的重要性分数;
所述服务器提取重要性分数大于预设值的目标句子作为所述第一文本的关键信息;
所述服务器将所述第一文本的关键信息与各个第二文本中的关键信息进行对比得出第一文本与第二文本之间的相似度。
4.根据权利要求3所述的基于相似度匹配的文本翻译方法,其特征在于,所述服务器对所述第一文本进行拆解得到若干候选句子的步骤中,对第一文本中的文本块进行拆分的方法为:
按照标点符号进行拆解;其中,所述标点符号为分号、逗号、句号时,进行拆解,当标点符号为顿号、冒号、引号时,不进行拆解。
5.根据权利要求4所述的基于相似度匹配的文本翻译方法,其特征在于,所述服务器确定各候选句子的重要性分数的步骤包括:
判断所述候选句子中是否包含中文句子和/或网页链接地址;
若仅仅含有中文句子,则将中文句子中各词组的权值之和作为所述候选句子的重要性分数;
若仅仅含有网页链接地址,则将所述网页链接地址对应网页中所含页面元素的权值之和作为所述候选句子的重要性分数;
若同时含有中文句子和网页链接地址,则将中文句子中各词组的权值之和和网页链接地址所对应网页中所含页面元素的权值之和的加权平均值作为所述候选句子的重要性分数。
6.根据权利要求5所述的基于相似度匹配的文本翻译方法,其特征在于,所述将中文句子中各词组的权值之和作为所述候选句子的重要性分数的步骤包括:
按照语义分析的方式再将每个候选句子拆分为若干个词组;
进行全文检索,计算各词组出现的次数;
按照出现次数由高到低的顺序对各词组进行排序,每个词组按照出现次数赋予相应的权值,出现次数越高,权值越高;
根据各词组的权值,计算各候选句子的重要性分数,该重要性分数即为该候选句子中各词组的权值之和。
7.根据权利要求5所述的基于相似度匹配的文本翻译方法,其特征在于,所述将所述网页链接地址对应网页中所含页面元素的权值之和作为所述候选句子的重要性分数步骤包括:
服务器后台开启该网页链接地址对应的目标网页;
服务器根据该目标网页中所含页面元素确定所述目标网页的重要性分数。
8.根据权利要求6所述的基于相似度匹配的文本翻译方法,其特征在于,所述服务器根据该目标网页中所含页面元素确定所述目标网页的重要性分数的步骤包括:
使用下面的公式确定目标网页的重要性分数;
其中,S(Vi)是目标网页的重要性分数,d是阻尼系数,一般设置为0.85,In(Vi)是存在指向目标网页的链接的网页集合。out(Vj)是网页j中的链接存在的链接指向的网页集合,out(Vj)取绝对值是用以表示该网页集合中元素的个数,S(Vj)是网页j的重要性分数。
9.根据权利要求6或7所述的基于相似度匹配的文本翻译方法,其特征在于,所述服务器将所述第一文本的关键信息与第二文本的关键信息进行相似度对比的步骤包括:
计算第一文本的关键信息中的第一句子与第二文本的关键信息中的第二句子的余弦相似度;
若余弦相似度高于预设值,则确定第一文本与第二文本近似。
10.根据权利要求9所述的基于相似度匹配的文本翻译方法,其特征在于,所述余弦相似度的计算方法为:
将第一句子拆分为若干个词组;
将第二句子拆分为若干个词组;
将两组词组进行逐一对比,若存在,则记录为1,若不存在,则记录为0,得到第一序列和第二序列;
计算第一序列和第二序列之间的余弦相似度,并作为第一句子和第二句子之间的余弦相似度。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810705011.8A CN109033093A (zh) | 2018-07-01 | 2018-07-01 | 一种基于相似度匹配的文本翻译方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810705011.8A CN109033093A (zh) | 2018-07-01 | 2018-07-01 | 一种基于相似度匹配的文本翻译方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109033093A true CN109033093A (zh) | 2018-12-18 |
Family
ID=65521151
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810705011.8A Pending CN109033093A (zh) | 2018-07-01 | 2018-07-01 | 一种基于相似度匹配的文本翻译方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109033093A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111611813A (zh) * | 2020-04-29 | 2020-09-01 | 南京南瑞继保电气有限公司 | 文档翻译方法、装置、电子设备及存储介质 |
CN113919371A (zh) * | 2021-09-06 | 2022-01-11 | 山东智慧译百信息技术有限公司 | 一种翻译语料库的匹配方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103123618A (zh) * | 2011-11-21 | 2013-05-29 | 北京新媒传信科技有限公司 | 文本相似度获取方法和装置 |
CN105446962A (zh) * | 2015-12-30 | 2016-03-30 | 武汉传神信息技术有限公司 | 原文和译文的对齐方法和装置 |
CN105677642A (zh) * | 2015-12-31 | 2016-06-15 | 成都数联铭品科技有限公司 | 一种机器翻译语序调整方法 |
-
2018
- 2018-07-01 CN CN201810705011.8A patent/CN109033093A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103123618A (zh) * | 2011-11-21 | 2013-05-29 | 北京新媒传信科技有限公司 | 文本相似度获取方法和装置 |
CN105446962A (zh) * | 2015-12-30 | 2016-03-30 | 武汉传神信息技术有限公司 | 原文和译文的对齐方法和装置 |
CN105677642A (zh) * | 2015-12-31 | 2016-06-15 | 成都数联铭品科技有限公司 | 一种机器翻译语序调整方法 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111611813A (zh) * | 2020-04-29 | 2020-09-01 | 南京南瑞继保电气有限公司 | 文档翻译方法、装置、电子设备及存储介质 |
CN111611813B (zh) * | 2020-04-29 | 2023-09-08 | 南京南瑞继保电气有限公司 | 文档翻译方法、装置、电子设备及存储介质 |
CN113919371A (zh) * | 2021-09-06 | 2022-01-11 | 山东智慧译百信息技术有限公司 | 一种翻译语料库的匹配方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7346487B2 (en) | Method and apparatus for identifying translations | |
CN108920633B (zh) | 一种论文相似度的检测方法 | |
CN109582704B (zh) | 招聘信息和求职简历匹配的方法 | |
Almeman et al. | Automatic building of arabic multi dialect text corpora by bootstrapping dialect words | |
CN109033212A (zh) | 一种基于相似度匹配的文本分类方法 | |
CN107609132A (zh) | 一种基于语义本体库中文文本情感分析方法 | |
CN106933972B (zh) | 利用自然语言处理技术定义数据元素的方法以及装置 | |
CN109241277A (zh) | 基于新闻关键词的文本向量加权的方法及系统 | |
CN110287405A (zh) | 情感分析的方法、装置和存储介质 | |
CN109033093A (zh) | 一种基于相似度匹配的文本翻译方法 | |
CN110196910B (zh) | 一种语料分类的方法及装置 | |
Sagcan et al. | Toponym recognition in social media for estimating the location of events | |
US20050010390A1 (en) | Translated expression extraction apparatus, translated expression extraction method and translated expression extraction program | |
Qu et al. | Finding ideographic representations of Japanese names written in Latin script via language identification and corpus validation | |
Scheible et al. | Sentiment translation through multi-edge graphs | |
Albogamy et al. | Unsupervised stemmer for Arabic tweets | |
CN108959263B (zh) | 一种词条权重计算模型训练方法及装置 | |
KR20170094063A (ko) | 의미 기반 명사 유사도 계산 장치 및 방법 | |
CN109002508B (zh) | 一种基于网络爬虫的文本信息爬取方法 | |
CN106776533B (zh) | 用于分析一段文本的方法和系统 | |
CN109871536B (zh) | 地名识别方法和装置 | |
Lin et al. | Learning Indonesian frequently used vocabulary from large-scale news | |
JP5339628B2 (ja) | 未知語を含む文章を分類するための文章分類プログラム、方法及び文章解析サーバ | |
He et al. | Similar language identification for Uyghur and Kazakh on short spoken texts | |
JP2004334699A (ja) | テキスト評価装置、テキスト評価方法、プログラム及び記憶媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20181218 |