CN108182182B - 翻译数据库中文档匹配方法、装置及计算机可读存储介质 - Google Patents

翻译数据库中文档匹配方法、装置及计算机可读存储介质 Download PDF

Info

Publication number
CN108182182B
CN108182182B CN201711444694.8A CN201711444694A CN108182182B CN 108182182 B CN108182182 B CN 108182182B CN 201711444694 A CN201711444694 A CN 201711444694A CN 108182182 B CN108182182 B CN 108182182B
Authority
CN
China
Prior art keywords
word
speech
document
professional
weight
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201711444694.8A
Other languages
English (en)
Other versions
CN108182182A (zh
Inventor
宋安琪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Transn Iol Technology Co ltd
Original Assignee
Transn Iol Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Transn Iol Technology Co ltd filed Critical Transn Iol Technology Co ltd
Priority to CN201711444694.8A priority Critical patent/CN108182182B/zh
Publication of CN108182182A publication Critical patent/CN108182182A/zh
Application granted granted Critical
Publication of CN108182182B publication Critical patent/CN108182182B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3334Selection or weighting of terms from queries, including natural language queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution

Abstract

本发明公开了翻译数据库中文档匹配方法、装置及计算机可读存储介质,属于翻译技术领域。其中,所述翻译数据库包括至少两种专业类别的已译文档,该方法包括:根据已配置的贝叶斯分类器,确定待匹配文档对应的当前专业类别,其中,所述贝叶斯分类器是根据所述翻译数据库的每种专业类别中每个词的词频,以及对应的词性重要性配置的;在所述翻译数据库的与所述当前专业类别对应的已译文档中,进行文档相似度匹配,确定与所述待匹配文档匹配度最高的设定个数的匹配文档。这样,可实现根据文档的专业性,来确定匹配文档,进一步提高了计算机辅助翻译的准确性和效率。

Description

翻译数据库中文档匹配方法、装置及计算机可读存储介质
技术领域
本发明涉及翻译技术领域,特别涉及翻译数据库中文档匹配方法、装置及计算机可读存储介质。
背景技术
当前计算机辅助翻译是提高翻译一致性和效率的重要手段,它能够帮助翻译者优质、高效、轻松地完成翻译,使得繁重的手工翻译流程自动化,并大幅度提高了翻译效率和翻译质量。
计算机辅助翻译的平台可选择译员来翻译待翻译文档,还可在翻译数据库种确定与待翻译文档匹配的已译文档,从而根据已译文档来辅助译员进行文档的翻译。但是,目前已译文档涉及很多行业,而每个行业都有自己的大量专业术语,而不同的译员有不同的擅长的行业或专业,目前,翻译平台还很难准确地根据文档的专业性来选择译员或者确定已译文档来辅助译员进行文档的翻译。
发明内容
本发明实施例提供了一种翻译数据库中文档匹配方法、装置及计算机可读存储介质。为了对披露的实施例的一些方面有一个基本的理解,下面给出了简单的概括。该概括部分不是泛泛评述,也不是要确定关键/重要组成元素或描绘这些实施例的保护范围。其唯一目的是用简单的形式呈现一些概念,以此作为后面的详细说明的序言。
根据本发明实施例的第一方面,提供了一种翻译数据库中文档匹配的方法,所述翻译数据库包括至少两种专业类别的已译文档,所述方法包括:
根据已配置的贝叶斯分类器,确定待匹配文档对应的当前专业类别,其中,所述贝叶斯分类器是根据所述翻译数据库的每种专业类别中每个词的词频,以及对应的词性重要性配置的;
在所述翻译数据库的与所述当前专业类别对应的已译文档中,进行文档相似度匹配,确定与所述待匹配文档匹配度最高的设定个数的匹配文档。
本发明一实施例中,所述贝叶斯分类器的配置过程包括:
将所述翻译数据库中同一专业类别对应的已译文档中每个词根据词性进行分组;
根据每个词在每种专业类别对应已译文档中的出现次数,所述翻译数据库对应的专业类别的总分类数,以及每个词对应的专业类别的第一分类数,确定每个词的词语权值;
根据同一词性中每个词的词语权值,确定每种词性的词性平均值,以及,将每种词性对应的词性平均值与词性平均值的和之间的比值,确定为表示每种词性重要性的词性权值;
根据每个词在所述翻译数据库中出现的词频,以及对应的所述词性权值,配置贝叶斯分类器。
本发明一实施例中,所述根据每个词在所述翻译数据库中出现的词频,以及对应的所述词性权值,配置贝叶斯分类器包括:
确定所述翻译数据库中每个词在设定的专业翻译词典中出现位置对应的词典专业类别;
根据每个词对应的每种词典专业类别之间临近关系,以及对应的所述词语权值,确定每个词的专业临近权值;
根据每个词的词频、所述词性权值,以及所述专业临近权值,确定每个词的权值词频;
根据每个词的所述权值词频,配置所述翻译数据库的贝叶斯分类器。
本发明一实施例中,所述进行文档相似度匹配,确定与所述待匹配文档匹配度最高的设定个数的匹配文档包括:
根据BM25算法,获取所述翻译数据库的与所述当前专业类别对应的每一篇已译文档与所述待匹配文档的文档匹配度;
将所述文档匹配度最高的设定个数的已译文档确定为与所述待匹配文档匹配的匹配文档。
根据本发明实施例的第二方面,提供一种翻译数据库中文档匹配的装置,所述翻译数据库包括至少两种专业类别的已译文档,所述装置包括:
确定单元,用于根据已配置的贝叶斯分类器,确定待匹配文档对应的当前专业类别,其中,所述贝叶斯分类器是根据所述翻译数据库的每种专业类别中每个词的词频,以及对应的词性重要性配置的;
匹配单元,用于在所述翻译数据库的与所述当前专业类别对应的已译文档中,进行文档相似度匹配,确定与所述待匹配文档匹配度最高的设定个数的匹配文档。
本发明一实施例中,所述装置还包括:配置单元,其中,所述配置单元包括:
分组模块,用于将所述翻译数据库中同一专业类别对应的已译文档中每个词根据词性进行分组;
词语权值确定模块,用于根据每个词在每种专业类别对应已译文档中的出现次数,所述翻译数据库对应的专业类别的总分类数,以及每个词对应的专业类别的第一分类数,确定每个词的词语权值;
词性权值确定模块,用于根据同一词性中每个词的词语权值,确定每种词性的词性平均值,以及,将每种词性对应的词性平均值与词性平均值的和之间的比值,确定为表示每种词性重要性的词性权值;
配置模块,用于根据每个词在所述翻译数据库中出现的词频,以及对应的所述词性权值,配置贝叶斯分类器。
本发明一实施例中,所述配置模块,具体用于确定所述翻译数据库中每个词在设定的专业翻译词典中出现位置对应的词典专业类别;根据每个词对应的每种词典专业类别之间临近关系,以及对应的所述词语权值,确定每个词的专业临近权值;根据每个词的词频、所述词性权值,以及所述专业临近权值,确定每个词的权值词频;以及,根据每个词的所述权值词频,配置所述翻译数据库的贝叶斯分类器。
本发明一实施例中,所述匹配单元,具体用于根据BM25算法,获取所述翻译数据库的与所述当前专业类别对应的每一篇已译文档与所述待匹配文档的文档匹配度,并将所述文档匹配度最高的设定个数的已译文档确定为与所述待匹配文档匹配的匹配文档。
根据本发明实施例的第三方面,提供一种翻译数据库中文档匹配的装置,用于终端或服务器,所述翻译数据库包括至少两种专业类别的已译文档,所述装置包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为:
根据已配置的贝叶斯分类器,确定待匹配文档对应的当前专业类别,其中,所述贝叶斯分类器是根据所述翻译数据库的每种专业类别中每个词的词频,以及对应的词性重要性配置的;
在所述翻译数据库的与所述当前专业类别对应的已译文档中,进行文档相似度匹配,确定与所述待匹配文档匹配度最高的设定个数的匹配文档。
根据本发明实施例的第四方面,提供一种计算机可读存储介质,其上存储有计算机指令,该指令被处理器执行时实现上述方法的步骤。
本发明实施例提供的技术方案可以包括以下有益效果:
本发明实施例中,可根据每个词的词语权值,词性权值,确定待匹配文档对应的专业类别,然后,从翻译数据库的与确定的专业类别对应的已译文档中,确定与待匹配文档匹配度的匹配文档,这样,可实现根据文档的专业性,来确定匹配文档,进一步提高了计算机辅助翻译的准确性和效率。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本发明。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。
图1是根据一示例性实施例示出的一种翻译数据库中文档匹配方法的流程图;
图2是根据一示例性实施例示出的一种贝叶斯分类器配置方法的流程图;
图3是根据一示例性实施例示出的一种翻译数据库中文档匹配方法的流程图;
图4是根据一示例性实施例示出的一种翻译数据库中文档匹配装置的框图;
图5是根据一示例性实施例示出的一种翻译数据库中文档匹配装置的框图。
具体实施方式
以下描述和附图充分地示出本发明的具体实施方案,以使本领域的技术人员能够实践它们。实施例仅代表可能的变化。除非明确要求,否则单独的部件和功能是可选的,并且操作的顺序可以变化。一些实施方案的部分和特征可以被包括在或替换其他实施方案的部分和特征。本发明的实施方案的范围包括权利要求书的整个范围,以及权利要求书的所有可获得的等同物。在本文中,各实施方案可以被单独地或总地用术语“发明”来表示,这仅仅是为了方便,并且如果事实上公开了超过一个的发明,不是要自动地限制该应用的范围为任何单个发明或发明构思。本文中,诸如第一和第二等之类的关系术语仅仅用于将一个实体或者操作与另一个实体或操作区分开来,而不要求或者暗示这些实体或操作之间存在任何实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素。本文中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的结构、产品等而言,由于其与实施例公开的部分相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
计算机辅助翻译是一种越来越普遍使用的软件应用,通过该应用可以帮助翻译者优质、高效、轻松地完成翻译。本发明实施例中,根据每个词的词语权值,词性权值,采用贝叶斯分类器确定待匹配文档对应的专业类别,然后,从翻译数据库的与确定的专业类别对应的已译文档中,确定与待匹配文档匹配度的匹配文档,这样,可实现根据文档的专业性,来确定匹配文档,进一步提高了计算机辅助翻译的准确性和效率。
图1是根据一示例性实施例示出的一种翻译数据库中文档匹配方法的流程图。如图1所示,翻译数据库中文档匹配的过程包括:
步骤101:根据已配置的贝叶斯分类器,确定待匹配文档对应的当前专业类别。
本发明实施例中,翻译数据库包括多个已译文档,并且这些已译文档涉及两个或多个行业,因此,可预设两种或多种专业类别,这样,每种专业类别都对应一个,两个或多个已译文档。例如:翻译数据库中包括有已译文档1、已译文档2、……、已译文档100。而预设的专业类别可包括:电子类别,通讯类别,机械类别,化学类别,以及医药类别这五个类别,其中,已译文档1、已译文档2、……、已译文档30属于电子类别;已译文档31、已译文档32、……、已译文档60属于电子类别;已译文档61、已译文档62、……、已译文档80属于机械类别;已译文档81、已译文档82、……、已译文档92属于化学类别;已译文档93、已译文档94、……、已译文档100属于医药类别。当然,翻译数据库对应的专业类别也不限于此,例如:可包括:电子信号类别、电子控制类别、基础通信类别、终端应用类别、机车机械类别、化工机械类别等等,具体就不再一一累述。即本发明实施例中,翻译数据库包括至少两种专业类别的已译文档。
这样,需在翻译数据库中确定与待匹配文档匹配的已译文档时,可首先确定待匹配文档所属的专业类别,即确定待匹配文档对应的当前专业类别。
本实施例中,可根据已配置的贝叶斯分类器,确定待匹配文档对应的当前专业类别。其中,贝叶斯分类器(Bayes Classifier,NBC)是基于贝叶斯定理与特征条件独立假设的分类方法。一般,可根据数据库中每个次出现的词频,来配置贝叶斯分类器,但本发明实施例中,需确定待匹配文档所属的专业类别,因此,可预先配置与专业类别相关的贝叶斯分类器。即本实施例中,贝叶斯分类器是根据翻译数据库的每种专业类别中每个词的词频,以及对应的词性重要性配置的。
这样,可解析待匹配文档中每个词对应每个专业类别的词频,以及每种词性重要性,从而,通过贝叶斯分类器,即可确定待匹配文档对应的当前专业类别。
步骤102:在翻译数据库的与当前专业类别对应的已译文档中,进行文档相似度匹配,确定与待匹配文档匹配度最高的设定个数的匹配文档。
本发明实施例中,步骤101中已确定了待匹配文档对应的当前专业类别,从而,只需在翻译数据库的与当前专业类别对应的已译文档中,进行文档相似度匹配,确定与待匹配文档匹配度最高的设定个数的匹配文档。例如:确定待匹配文档对应的当前专业类别为机械类别,而翻译数据库中包括有已译文档1、已译文档2、……、已译文档100,其中,已译文档61、已译文档62、……、已译文档80属于机械类别,这样,只需在已译文档61、已译文档62、……、已译文档80中,进行文档相似度匹配,确定与待匹配文档匹配度最高的设定个数的匹配文档。
文档相似度匹配的具体方式可以有多种,例如:基于余弦相似度、SimHash、或BM25等算法,来进行文档相似度匹配。或者,基于词特征向量技术来进行文档相似度匹配。其中,BM25算法是一种常见用来做相关度打分的公式,因此,可根据BM25算法,获取翻译数据库的与当前专业类别对应的每一篇已译文档与待匹配文档的文档匹配度;然后,将文档匹配度最高的设定个数的已译文档确定为与待匹配文档匹配的匹配文档。
可见,本发明实施例中,根据每个词的词语权值,词性权值,采用贝叶斯分类器确定待匹配文档对应的专业类别,然后,从翻译数据库的与确定的专业类别对应的已译文档中,确定与待匹配文档匹配度的匹配文档,这样,只需在与专业类别所属的已译文档中,进行文档相似度匹配,减少了匹配运算量,提高了文档匹配的准确性和效率。并且,确定了匹配的已译文档,可在翻译数据库中获取与已译文档的原文对应译文,从而可辅助译员进行翻译,进一步提高了计算机辅助翻译的准确性和效率。另外,确定了匹配的已译文档后,可获取对应的译员信息,从而,可将待匹配文档分配给合适的译员进行翻译,进一步保证了计算机辅助翻译的准确性和效率。
本发明实施例中,即通过贝叶斯分类器,来确定待匹配文档对应的当前专业类别的,因此,贝叶斯分类器的配置过程非常重要。
图2是根据一示例性实施例示出的一种贝叶斯分类器配置方法的流程图。如图2所示,贝叶斯分类器的配置过程包括:
步骤201:将翻译数据库中同一专业类别对应的已译文档中每个词根据词性进行分组。
本实施例中,贝叶斯分类器是根据翻译数据库的每种专业类别中每个词的词频,以及对应的词性重要性配置的,因此,首先将每种专业类别中每个词根据词性进行分组。一般,词性包括:名词、动词、介词、形容词等等。例如:已译文档1、已译文档2、……、已译文档30属于电子类别,则可对已译文档1、已译文档2、……、已译文档30中的每个词进行分组。这样,名词对应词1、词2、词8、词9……,而动词对应词3、词4、词5、词7……,形容词对应词6、词10、词15、词17……等等。同样,对于机械类别、医药类别等等,也对已译文档中的每个词进行分组,就不一一例举了。
步骤202:根据每个词在每种专业类别对应已译文档中的出现次数,翻译数据库对应的专业类别的总分类数,以及每个词对应的专业类别的第一分类数,确定每个词的词语权值。
TF-IDF(term frequency–inverse document frequency)是一种用于信息检索与数据挖掘的常用加权技术。TF意思是词频(Term Frequency),IDF意思是逆向文件频率(Inverse Document Frequency)。TF-IDF是一种统计方法,用以评估一字词对于一个数据中的其中一份文档的重要程度。字词的重要性随着它在文档中出现的次数成正比增加,但同时会随着它在数据库中出现的频率成反比下降。因此,本实施例中,确定每个词的词语权值,即可确定每个词的TF-IDF,对应下述描述中的tf-idf。
对于某一种专业类别中的词ti而言,它的tf可以表示为:
Figure BDA0001527253450000081
其中ni,j是该词在专业类别dj中每个已译文档中出现的次数,而分母则是专业类别dj中已译文档中所有词出现的次数总和。
它的idf可以表示为
Figure BDA0001527253450000082
其中|D|是翻译数据库中的专业类别的类别总数,即总分类数,|{j:tiΕdj}|表示包含词ti的专业类别的类别数目,即第一分类数。
最后利用tf-idf(t)=tf(t)×idf(t))计算每个词语的tf-idf,即确定了每个词的词语权值。由于tf-idf可分别根据专业类别的总分类数,以及第一分类数,因此,词语权值与专业类别是密切相关的。
步骤203:根据同一词性中每个词的词语权值,确定每种词性的词性平均值,以及,将每种词性对应的词性平均值与词性平均值的和之间的比值,确定为表示每种词性重要性的词性权值。
确定了每个词的tf-idf后,即可根据词性,来确定每种词性的词性权值,词性权值用以表示每种词性重要性。具体地,可根据同一词性中每个词的词语权值tf-idf,确定每种词性的词性平均值即tf-idf均值,以及,将每种词性对应的词性平均值与词性平均值的和之间的比值,确定为表示每种词性重要性的词性权值即
Figure BDA0001527253450000091
步骤204:根据每个词在翻译数据库中出现的词频,以及对应的词性权值,配置贝叶斯分类器。
这里,每个词在翻译数据库的出现次数,可为每个词的词频。且对应的词性权值已确定,从而,可根据词频,以及词性权值,配置贝叶斯分类器。
但本发明实施例不限于此,还可进一步根据设定的专业翻译词典,确每个词的专业临近权值,从而,根据每个词的词频、词语权值,以及专业临近权值,配置贝叶斯分类器。具体可包括:确定翻译数据库中每个词在设定的专业翻译词典中出现位置对应的词典专业类别;根据每个词对应的每种词典专业类别之间临近关系,以及对应的词语权值,确定每个词的专业临近权值;根据每个词的词频、词性权值,以及专业临近权值,确定每个词的权值词频;根据每个词的权值词频,配置翻译数据库的贝叶斯分类器。
在翻译领域,已经有译员经常使用的专业翻译词典,这些专业翻译词典可设定的专业翻译词典。一般,专业翻译词典中都已根据专业类别对每个词进行了分类。这样,对于翻译数据库中的每个词,可在专业翻译词典进行检索,确定每个词在设定的专业翻译词典中出现位置对应的词典专业类别。例如:当前词在设定的专业翻译词典中出现位置对应的词典专业类别分别为:机械类别、电子类别、计算机类别、以及通信类别。
根据日常应用经验,可获知有些专业类别可为相近类别,例如:电子类别和计算机类别,化学类别和医药类别。而有些专业类别是不相近类别,例如:机械类别与电子类别,化学类别与通讯类别等。因此,可根据每个词对应的每种词典专业类别之间临近关系,以及对应的词性权值,确定每个词的专业临近权值。例如:预设每个词对应的初始临近指数为10,这样,若一个词对应的专业类别中,有相近类别,则对应的临近指数为初始临近指数减1,若不是相近类别,则对应的临近指数为初始临近指数减2。其中,当前词在设定的专业翻译词典中出现位置对应的词典专业类别分别为:机械类别、电子类别、计算机类别、以及化学类别,由于电子类别与计算机类别相近,而机械类别、化学类别分别与其他类别不相近,则对应的始临近指数可为10-2-1-1-2=4。当然,本实施例中,还预设了最小临近指数,可为1。即当始临近指数之间的运算值小于1时,也确认为1。
这样,根据每个词的词语权值以及临近指数,可确定每个词的专业临近权值。例如:专业临近权值=词语权值tf-idf与临近指数乘积。
这样,可将词频、词性权值,以及专业临近权值三者相乘,得到每个词的权值词频,从而,根据每个词的权值词频,配置翻译数据库的贝叶斯分类器。
可见,本实施例中,贝叶斯分类器的配置是与专业类别密切相关的。较佳地,还可根据专业翻译词典中的每种词典专业类别之间临近关系,来确定配置贝叶斯分类器的权值词频,进一步提高贝叶斯分类器的分类准确性,从而,提高了文档匹配的准确性。
下面将操作流程集合到具体实施例中,举例说明本公开实施例提供的方法。
本实施例中,根据翻译数据库的每种专业类别中每个词的词频,词性权值、词语权值,以及专业翻译词典中每种词典专业类别之间临近关系配置了贝叶斯分类器。
图3是根据一示例性实施例示出的一种翻译数据库中文档匹配方法的流程图。如图3所示,翻译数据库中文档匹配过程包括:
步骤301:根据已配置的贝叶斯分类器,确定待匹配文档对应的当前专业类别。
步骤302:根据BM25算法,获取翻译数据库的与当前专业类别对应的每一篇已译文档与待匹配文档的文档匹配度。
这里,文档匹配度为BM25算法确定的Score(Q,d)。其中,Q为待匹配文档,d为翻译数据库中当前专业类别对应的一篇已译文档。
BM25算法的一般性公式如下:
Figure BDA0001527253450000111
Figure BDA0001527253450000112
Figure BDA0001527253450000113
其中,Q表示待匹配文档。qi表示Q解析之后的一个词,d表示一篇已译文档,Wi表示词语qi的权重;R(qi,d)表示词语qi与文档d的相关性得分。
k1,k2,b为调节因子,通常设置k1=1.2,b=0.75,k2=0,fi为qi在d中的出现频率,qfi为qi在待匹配文档中的出现频率。dl为文档d的长度,avgdl为所有文档的平均长度。
Wi表示一个词语与一个文档相关性的权重,方法有多种,这里选择IDF,公式如下:
Figure BDA0001527253450000114
综上,BM25算法的相关性得分公式可简化为:
Figure BDA0001527253450000115
从而,可获取翻译数据库的与当前专业类别对应的每一篇已译文档与待匹配文档的文档匹配度。
步骤303:将文档匹配度最高的设定个数的已译文档确定为与待匹配文档匹配的匹配文档。
可根据Score(Q,d)的高低进行排序,可将排序在前面的设定个数的Score(Q,d)对应的已译文档确定为与待匹配文档匹配的匹配文档。
可见,本实施例中,可通过贝叶斯分类器,确定待匹配文档对应的当前专业类别,并通过BM25算法,确定与待匹配文档匹配度最高的设定个数的匹配文档,这样,分类过程清晰,查找匹配过程简单通用,进一步提高了文档匹配的准确性和效率。
下述为本公开装置实施例,可以用于执行本公开方法实施例。
根据上述翻译数据库中文档匹配的过程,可构建一种翻译数据库中文档匹配的装置。
图4是根据一示例性实施例示出的一种翻译数据库中文档匹配装置的框图。翻译数据库包括至少两种专业类别的已译文档,如图4所示,该装置包括:确定单元100和匹配单元200,其中,
确定单元100,用于根据已配置的贝叶斯分类器,确定待匹配文档对应的当前专业类别,其中,贝叶斯分类器是根据翻译数据库的每种专业类别中每个词的词频,以及对应的词性重要性配置的。
匹配单元200,用于在翻译数据库的与当前专业类别对应的已译文档中,进行文档相似度匹配,确定与待匹配文档匹配度最高的设定个数的匹配文档。
本发明一实施例中,装置还包括:配置单元,其中,配置单元包括:
分组模块,用于将翻译数据库中同一专业类别对应的已译文档中每个词根据词性进行分组;
词语权值确定模块,用于根据每个词在每种专业类别对应已译文档中的出现次数,翻译数据库对应的专业类别的总分类数,以及每个词对应的专业类别的第一分类数,确定每个词的词语权值;
词性权值确定模块,用于根据同一词性中每个词的词语权值,确定每种词性的词性平均值,以及,将每种词性对应的词性平均值与词性平均值的和之间的比值,确定为表示每种词性重要性的词性权值;
配置模块,用于根据每个词在翻译数据库中出现的词频,以及对应的词性权值,配置贝叶斯分类器。
本发明一实施例中,配置模块,具体用于确定翻译数据库中每个词在设定的专业翻译词典中出现位置对应的词典专业类别;根据每个词对应的每种词典专业类别之间临近关系,以及对应的词语权值,确定每个词的专业临近权值;根据每个词的词频、词性权值,以及专业临近权值,确定每个词的权值词频;以及,根据每个词的权值词频,配置翻译数据库的贝叶斯分类器。
本发明一实施例中,匹配单元200,具体用于根据BM25算法,获取翻译数据库的与当前专业类别对应的每一篇已译文档与待匹配文档的文档匹配度,并将文档匹配度最高的设定个数的已译文档确定为与待匹配文档匹配的匹配文档。
下面举例说明本公开实施例提供的装置。
图5是根据一示例性实施例示出的一种翻译数据库中文档匹配装置的框图。翻译数据库包括至少两种专业类别的已译文档,如图5所示,该装置包括:确定单元100、匹配单元200以及配置单元300,其中,配置单元300中包括分组模块310,词语权值确定模块320、词性权值确定模块330以及配置模块340。
本实施例中,配置单元300中分组模块310将翻译数据库中同一专业类别对应的已译文档中每个词根据词性进行分组,然后,词语权值确定模块320根据每个词在每种专业类别对应已译文档中的出现次数,翻译数据库对应的专业类别的总分类数,以及每个词对应的专业类别的第一分类数,确定每个词的词语权值tf-idf。而词性权值确定模块330可根据同一词性中每个词的词语权值,确定每种词性的词性平均值,以及,将每种词性对应的词性平均值与词性平均值的和之间的比值,确定为表示每种词性重要性的词性权值
Figure BDA0001527253450000131
从而,配置模块340可根据每个词在翻译数据库中出现的词频,以及对应的词性权值,配置贝叶斯分类器。
较佳地,配置模块340可确定翻译数据库中每个词在设定的专业翻译词典中出现位置对应的词典专业类别;根据每个词对应的每种词典专业类别之间临近关系,以及对应的词语权值,确定每个词的专业临近权值;根据每个词的词频、词性权值,以及专业临近权值,确定每个词的权值词频;根据每个词的权值词频,配置翻译数据库的贝叶斯分类器。
然后,确定单元100可根据配置单元300配置的贝叶斯分类器,确定待匹配文档对应的当前专业类别。而匹配单元200根据BM25算法,获取翻译数据库的与当前专业类别对应的每一篇已译文档与待匹配文档的文档匹配度,并将文档匹配度最高的设定个数的已译文档确定为与待匹配文档匹配的匹配文档。
可见,本实施例中,可通过配置单元配置的贝叶斯分类器,确定待匹配文档对应的当前专业类别,并通过BM25算法,确定与待匹配文档匹配度最高的设定个数的匹配文档,这样,分类过程清晰,查找匹配过程简单通用,进一步提高了文档匹配的准确性和效率。并且,确定了匹配的已译文档,可在翻译数据库中获取与已译文档的原文对应译文,从而可辅助译员进行翻译,进一步提高了计算机辅助翻译的准确性和效率。另外,确定了匹配的已译文档后,可获取对应的译员信息,从而,可将待匹配文档分配给合适的译员进行翻译,进一步保证了计算机辅助翻译的准确性和效率。
本发明一实施例中,提供一种翻译数据库中文档匹配的装置,用于终端或服务器,翻译数据库包括至少两种专业类别的已译文档,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,处理器被配置为:
根据已配置的贝叶斯分类器,确定待匹配文档对应的当前专业类别,其中,所述贝叶斯分类器是根据所述翻译数据库的每种专业类别中每个词的词频,以及对应的词性重要性配置的;
在所述翻译数据库的与所述当前专业类别对应的已译文档中,进行文档相似度匹配,确定与所述待匹配文档匹配度最高的设定个数的匹配文档。
本发明一实施例中,提供一种计算机可读存储介质,其上存储有计算机指令,该指令被处理器执行时实现上述方法的步骤。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
应当理解的是,本发明并不局限于上面已经描述并在附图中示出的流程及结构,并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

Claims (8)

1.一种翻译数据库中文档匹配的方法,其特征在于,所述翻译数据库包括至少两种专业类别的已译文档,所述方法包括:
根据已配置的贝叶斯分类器,确定待匹配文档对应的当前专业类别,其中,所述贝叶斯分类器是根据所述翻译数据库的每种专业类别中每个词的词频,以及对应的词性重要性配置的;
在所述翻译数据库的与所述当前专业类别对应的已译文档中,进行文档相似度匹配,确定与所述待匹配文档匹配度最高的设定个数的匹配文档;
所述贝叶斯分类器的配置过程包括:
将所述翻译数据库中同一专业类别对应的已译文档中每个词根据词性进行分组;
根据每个词在每种专业类别对应已译文档中的出现次数,所述翻译数据库对应的专业类别的总分类数,以及每个词对应的专业类别的第一分类数,确定每个词的词语权值;
根据同一词性中每个词的词语权值,确定每种词性的词性平均值,以及,将每种词性对应的词性平均值与词性平均值的和之间的比值,确定为表示每种词性重要性的词性权值;
根据每个词在所述翻译数据库中出现的词频,以及对应的所述词性权值,配置贝叶斯分类器。
2.如权利要求1所述的方法,其特征在于,所述根据每个词在所述翻译数据库中出现的词频,以及对应的所述词性权值,配置贝叶斯分类器包括:
确定所述翻译数据库中每个词在设定的专业翻译词典中出现位置对应的词典专业类别;
根据每个词对应的每种词典专业类别之间临近关系,以及对应的所述词语权值,确定每个词的专业临近权值;
根据每个词的词频、所述词性权值,以及所述专业临近权值,确定每个词的权值词频;
根据每个词的所述权值词频,配置所述翻译数据库的贝叶斯分类器。
3.如权利要求1所述的方法,其特征在于,所述进行文档相似度匹配,确定与所述待匹配文档匹配度最高的设定个数的匹配文档包括:
根据BM25算法,获取所述翻译数据库的与所述当前专业类别对应的每一篇已译文档与所述待匹配文档的文档匹配度;
将所述文档匹配度最高的设定个数的已译文档确定为与所述待匹配文档匹配的匹配文档。
4.一种翻译数据库中文档匹配的装置,其特征在于,所述翻译数据库包括至少两种专业类别的已译文档,所述装置包括:
确定单元,用于根据已配置的贝叶斯分类器,确定待匹配文档对应的当前专业类别,其中,所述贝叶斯分类器是根据所述翻译数据库的每种专业类别中每个词的词频,以及对应的词性重要性配置的;
匹配单元,用于在所述翻译数据库的与所述当前专业类别对应的已译文档中,进行文档相似度匹配,确定与所述待匹配文档匹配度最高的设定个数的匹配文档;
配置单元,其中,所述配置单元包括:
分组模块,用于将所述翻译数据库中同一专业类别对应的已译文档中每个词根据词性进行分组;
词语权值确定模块,用于根据每个词在每种专业类别对应已译文档中的出现次数,所述翻译数据库对应的专业类别的总分类数,以及每个词对应的专业类别的第一分类数,确定每个词的词语权值;
词性权值确定模块,用于根据同一词性中每个词的词语权值,确定每种词性的词性平均值,以及,将每种词性对应的词性平均值与词性平均值的和之间的比值,确定为表示每种词性重要性的词性权值;
配置模块,用于根据每个词在所述翻译数据库中出现的词频,以及对应的所述词性权值,配置贝叶斯分类器。
5.如权利要求4所述的装置,其特征在于,
所述配置模块,具体用于确定所述翻译数据库中每个词在设定的专业翻译词典中出现位置对应的词典专业类别;根据每个词对应的每种词典专业类别之间临近关系,以及对应的所述词语权值,确定每个词的专业临近权值;根据每个词的词频、所述词性权值,以及所述专业临近权值,确定每个词的权值词频;以及,根据每个词的所述权值词频,配置所述翻译数据库的贝叶斯分类器。
6.如权利要求4所述的装置,其特征在于,
所述匹配单元,具体用于根据BM25算法,获取所述翻译数据库的与所述当前专业类别对应的每一篇已译文档与所述待匹配文档的文档匹配度,并将所述文档匹配度最高的设定个数的已译文档确定为与所述待匹配文档匹配的匹配文档。
7.一种翻译数据库中文档匹配的装置,应用于终端或服务器,其特征在于,所述翻译数据库包括至少两种专业类别的已译文档,所述装置包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为:
根据已配置的贝叶斯分类器,确定待匹配文档对应的当前专业类别,其中,所述贝叶斯分类器是根据所述翻译数据库的每种专业类别中每个词的词频,以及对应的词性重要性配置的;
在所述翻译数据库的与所述当前专业类别对应的已译文档中,进行文档相似度匹配,确定与所述待匹配文档匹配度最高的设定个数的匹配文档;
所述贝叶斯分类器的配置过程包括:
将所述翻译数据库中同一专业类别对应的已译文档中每个词根据词性进行分组;
根据每个词在每种专业类别对应已译文档中的出现次数,所述翻译数据库对应的专业类别的总分类数,以及每个词对应的专业类别的第一分类数,确定每个词的词语权值;
根据同一词性中每个词的词语权值,确定每种词性的词性平均值,以及,将每种词性对应的词性平均值与词性平均值的和之间的比值,确定为表示每种词性重要性的词性权值;
根据每个词在所述翻译数据库中出现的词频,以及对应的所述词性权值,配置贝叶斯分类器。
8.一种计算机可读存储介质,其上存储有计算机指令,其特征在于,该指令被处理器执行时实现权利要求1-3任一项所述方法的步骤。
CN201711444694.8A 2017-12-27 2017-12-27 翻译数据库中文档匹配方法、装置及计算机可读存储介质 Active CN108182182B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711444694.8A CN108182182B (zh) 2017-12-27 2017-12-27 翻译数据库中文档匹配方法、装置及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711444694.8A CN108182182B (zh) 2017-12-27 2017-12-27 翻译数据库中文档匹配方法、装置及计算机可读存储介质

Publications (2)

Publication Number Publication Date
CN108182182A CN108182182A (zh) 2018-06-19
CN108182182B true CN108182182B (zh) 2021-09-10

Family

ID=62547688

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711444694.8A Active CN108182182B (zh) 2017-12-27 2017-12-27 翻译数据库中文档匹配方法、装置及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN108182182B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111199170B (zh) * 2018-11-16 2022-04-01 长鑫存储技术有限公司 配方文件识别方法及装置、电子设备、存储介质
CN109697553A (zh) * 2018-12-10 2019-04-30 语联网(武汉)信息技术有限公司 一种基于区块链的译员信用管理方法及系统
CN110781303A (zh) * 2019-10-28 2020-02-11 佰聆数据股份有限公司 一种短文本分类方法及系统
CN112507709A (zh) * 2020-12-28 2021-03-16 科大讯飞华南人工智能研究院(广州)有限公司 文档匹配方法以及电子设备、存储装置
CN112836529B (zh) * 2021-02-19 2024-04-12 北京沃东天骏信息技术有限公司 生成目标语料样本的方法和装置

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1402408A1 (en) * 2001-07-04 2004-03-31 Cogisum Intermedia AG Category based, extensible and interactive system for document retrieval
US6778979B2 (en) * 2001-08-13 2004-08-17 Xerox Corporation System for automatically generating queries
CA2574554A1 (en) * 2004-07-21 2006-01-26 Equivio Ltd. A method for determining near duplicate data objects
WO2007086059A2 (en) * 2006-01-25 2007-08-02 Equivio Ltd. Determining near duplicate 'noisy' data objects
CN103049568B (zh) * 2012-12-31 2016-05-18 武汉传神信息技术有限公司 对海量文档库的文档分类的方法
CN103049569A (zh) * 2012-12-31 2013-04-17 武汉传神信息技术有限公司 基于向量空间模型的文本相似性匹配方法
CN103064969A (zh) * 2012-12-31 2013-04-24 武汉传神信息技术有限公司 自动建立关键词索引表的方法
CN104424279B (zh) * 2013-08-30 2018-11-20 腾讯科技(深圳)有限公司 一种文本的相关性计算方法和装置
CN104298662B (zh) * 2014-04-29 2017-10-10 中国专利信息中心 一种基于有机物命名实体的机器翻译方法及翻译系统
CN103970888B (zh) * 2014-05-21 2017-02-15 山东省科学院情报研究所 基于网络度量指标的文档分类方法
CN104142998A (zh) * 2014-08-01 2014-11-12 中国传媒大学 一种文本分类方法
CN105159879A (zh) * 2015-08-26 2015-12-16 北京理工大学 一种网络个体或群体价值观自动判别方法
US10210157B2 (en) * 2016-06-16 2019-02-19 Conduent Business Services, Llc Method and system for data processing for real-time text analysis
CN106547739B (zh) * 2016-11-03 2019-04-02 同济大学 一种文本语义相似度分析方法

Also Published As

Publication number Publication date
CN108182182A (zh) 2018-06-19

Similar Documents

Publication Publication Date Title
CN108182182B (zh) 翻译数据库中文档匹配方法、装置及计算机可读存储介质
CN108509474B (zh) 搜索信息的同义词扩展方法及装置
WO2020007028A1 (zh) 问诊数据推荐方法、装置、计算机设备和存储介质
US9208149B2 (en) Machine translation apparatus, method and program
KR101508260B1 (ko) 문서 특징을 반영하는 요약문 생성 장치 및 방법
CN106407280B (zh) 查询目标匹配方法及装置
CN109299280B (zh) 短文本聚类分析方法、装置和终端设备
US20140289675A1 (en) System and Method of Mapping Products to Patents
CN109508373B (zh) 企业舆情指数的计算方法、设备及计算机可读存储介质
CN107145560B (zh) 一种文本分类方法及装置
CN111753048B (zh) 文档检索方法、装置、设备及存储介质
CN110134777B (zh) 问题去重方法、装置、电子设备和计算机可读存储介质
JP6260294B2 (ja) 情報検索装置、情報検索方法および情報検索プログラム
CN110377558A (zh) 文档查询方法、装置、计算机设备和存储介质
CN111310440A (zh) 文本的纠错方法、装置和系统
Rodriguez et al. Comparison of information retrieval techniques for traceability link recovery
CN114141384A (zh) 用于检索医学数据的方法、设备和介质
CN107193916B (zh) 一种个性化多样化查询推荐方法及系统
CN112163415A (zh) 针对反馈内容的用户意图识别方法、装置及电子设备
CN112131341A (zh) 文本相似度计算方法、装置、电子设备和存储介质
CN108763258B (zh) 文档主题参数提取方法、产品推荐方法、设备及存储介质
CN111325033A (zh) 实体识别方法、装置、电子设备及计算机可读存储介质
Zhang et al. Mining source code topics through topic model and words embedding
CN113256383B (zh) 保险产品的推荐方法、装置、电子设备及存储介质
US11694033B2 (en) Transparent iterative multi-concept semantic search

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant