CN114064907A - 语料生成方法、装置、系统、设备和可读存储介质 - Google Patents
语料生成方法、装置、系统、设备和可读存储介质 Download PDFInfo
- Publication number
- CN114064907A CN114064907A CN202010746890.6A CN202010746890A CN114064907A CN 114064907 A CN114064907 A CN 114064907A CN 202010746890 A CN202010746890 A CN 202010746890A CN 114064907 A CN114064907 A CN 114064907A
- Authority
- CN
- China
- Prior art keywords
- language
- literary
- similarity
- chapter
- different languages
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9536—Search customisation based on social or collaborative filtering
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Human Computer Interaction (AREA)
- Machine Translation (AREA)
Abstract
本公开实施例公开了语料生成方法、装置、系统、设备和可读存储介质,所述语料生成方法包括:获取不同语言的文学作品以及文学作品的特征数据;根据所述文学作品的特征数据将不同语言的文学作品进行匹配,以获得不同语言的文学作品对;利用所述不同语言的文学作品对,获得不同语言的语料对,可以利用不同语言的文学作品的特点,结合标题、作者、摘要和文学作品的篇章名称进行文学作品匹配,获得不同语言的文学作品对,从而从不同语言的文学作品高效准确的自动生成高质量语料对。
Description
技术领域
本公开涉及计算机技术领域,具体涉及语料生成方法、装置、系统、设备和可读存储介质。
背景技术
近年来,随着国际交流的增多,无论是电商领域、医疗领域、文学领域等,机器翻译发挥着越来越大的作用。在机器翻译中,多语种平行语料对于训练机器翻译模型有着根基性的作用。随着互联网的飞速发展,以及贸易全球化的深化,从互联网获取多语种语料成了各个语料系统的最重要来源。例如,语料的来源可以是字幕文件、外语学习网站的句对等。但是,这些类型的语料数量较少。而诸如小说、剧本等各类文学作品是包含了大量数据的文本,移动互联网的飞速发展让更多的文学创作者可以更加方便地在互联网上发表作品。无论是从数量上,还是从数据的持续更新上,文学作品都是语料数据不可忽视的一个重要来源。
发明内容
为了解决相关技术中的问题,本公开实施例提供语料生成方法、装置、系统、设备和可读存储介质。
第一方面,本公开实施例中提供了一种语料生成方法,包括:
获取不同语言的文学作品以及文学作品的特征数据;
根据所述文学作品的特征数据将不同语言的文学作品进行匹配,以获得不同语言的文学作品对;
利用所述不同语言的文学作品对,获得不同语言的语料对。
结合第一方面,本公开在第一方面的第一种实现方式中,还包括:
所述文学作品的特征数据包括:文学作品的标题、作者、摘要、篇章名称中的一种或多种。
结合第一方面的第一种实现方式,本公开在第一方面的第二种实现方式中,所述根据所述文学作品的特征数据将不同语言的文学作品进行匹配,以获得不同语言的文学作品对,包括:
获得不同语言的文学作品的标题之间的映射关系;
获得不同语言的文学作品的作者之间的映射关系;
根据所述标题之间的映射关系以及所述作者之间的映射关系将不同语言的文学作品进行匹配。
结合第一方面的第二种实现方式,本公开在第一方面的第三种实现方式中,所述方法还包括:
计算不同语言的文学作品的标题之间的相似度;
计算不同语言的文学作品的作者之间的匹配度;
通过预设方式对所述标题之间的映射关系、所述标题之间的相似度、所述作者之间的映射关系和所述作者之间的匹配度进行加权计算,得到不同语言的文学作品对。
结合第一方面的第三种实现方式,本公开在第一方面的第五种实现方式中,所述计算不同语言的文学作品的标题之间的相似度,包括:
根据预设的多种语言的互译词典计算不同语言的文学作品的标题之间的相似度的第一相似度得分;
根据预设翻译工具对不同语言的文学作品的标题进行翻译,得到翻译结果;
对翻译结果以及待匹配的文学作品的标题进行分词和重合度计算,计算不同语言的文学作品的标题之间的相似度的第二相似度得分;
对所述第一相似度得分和所述第二相似度得分进行加权计算,以得到不同语言的文学作品的标题之间的相似度。
结合第一方面的第三种实现方式,本公开在第一方面的第五种实现方式中,所述计算不同语言的文学作品的作者之间的匹配度,包括:
根据预设注音方案对不同语言的文学作品的作者进行音译以获得音译作者名称;
根据所述音译作者名称与待匹配文学作品的作者名称是否一致计算不同语言的文学作品的作者之间的匹配度。
结合第一方面的第三种实现方式,本公开在第一方面的第六种实现方式中,所述方法还包括:
计算不同语言的文学作品的摘要之间的相似度;和/或
计算不同语言的文学作品的特定部分的内容之间的相似度;
对所述标题之间的映射关系、标题之间的相似度、作者之间的映射关系、作者之间的匹配度、摘要之间的相似度、和/或特定部分的内容之间的相似度进行加权计算,获取包含不同语言的文学作品对。
结合第一方面的第一种实现方式,本公开在第一方面的第七种实现方式中,所述利用所述不同语言的文学作品对,获得不同语言的语料对,包括:
根据所述文学作品的篇章内容和篇章名称对文学作品对中的不同语言的文学作品的篇章进行对齐;
从文学作品中的已对齐的篇章中生成包含不同语言的对应句的句组;
根据预设句组筛选规则,基于句组中的对应句之间的长度比和/或相似度对所述句组进行筛选;
根据筛选出的符合句组筛选规则的句组生成语料对。
结合第一方面的第七种实现方式,本公开在第一方面的第八种实现方式中,所述根据所述文学作品的篇章内容和篇章名称对文学作品对中的不同语言的文学作品的篇章进行对齐,包括:
对文学作品对中的不同语言的篇章内容进行分词;
根据预设的多种语言的互译词典翻译被译文学作品的篇章中的词以统计被译文学作品的篇章与待匹配文学作品的篇章中相同的n-gram的数量;
对被译文学作品的篇章与待匹配文学作品的篇章所组成的篇章组按照具有相同的n-gram的数量从高到低排序,并从所述排序的篇章组中筛选出前k个篇章组作为高相似度篇章组,其中,k为正整数;
计算所述高相似度篇章组中的不同语言的篇章名称的相似度;
从所述高相似度篇章组中筛选出具有最高相似度的篇章名称的篇章组作为对齐的篇章。
结合第一方面的第八种实现方式,本公开在第一方面的第九种实现方式中,所述计算所述高相似度篇章组中的不同语言的篇章名称的相似度,包括:
对所述高相似度篇章组中不同语言的篇章名称中的篇章号进行归一化以计算不同语言的篇章号的差的绝对值;和/或
计算所述高相似度篇章组中不同语言的篇章名称中的篇章标名之间的相似度;
根据所述不同语言的篇章号的差的绝对值和/或不同语言的篇章名称中的篇章标名之间的相似度计算所述高相似度篇章组中的不同语言的篇章名称的相似度。
第二方面,本公开实施例中提供了一种语料生成装置,包括:
获取模块,被配置为获取不同语言的文学作品以及文学作品的特征数据;
匹配模块,被配置为根据所述文学作品的特征数据将不同语言的文学作品进行匹配,以获得不同语言的文学作品对;
获得模块,被配置为利用所述不同语言的文学作品对,获得不同语言的语料对。
第三方面,本公开实施例中提供了一种语料生成方法,包括:
获取第一语言文学作品、包含所述第一语言文学作品的标题、作者、摘要和篇章名称的第一语言文学作品特征数据、第二语言文学作品以及包含所述第二语言文学作品的标题、作者、摘要和篇章名称的第二语言文学作品特征数据;
获取所述第一语言文学作品的标题与所述第二语言文学作品的标题之间的映射关系以及作者之间的映射关系;
计算所述第一语言文学作品与所述第二语言文学作品的标题之间的相似度、作者之间的匹配度、摘要之间的相似度和特定部分的内容之间的相似度;
对所述第一语言文学作品与所述第二语言文学作品的标题之间的映射关系、作者之间的映射关系、标题之间的相似度、作者之间的匹配度、摘要之间的相似度和特定部分的内容之间的相似度进行加权计算,获取包含第一语言文学作品和第二语言文学作品的文学作品对;
根据文学作品对中的第一语言文学作品和第二语言文学作品中的篇章内容以及篇章名称对第一语言文学作品和第二语言文学作品中的篇章进行对齐;
从对齐的篇章获取包含相互对应的第一语言的句与第二语言的句的句对;
根据预设语料筛选规则对所述句对进行筛选以生成语料对。
结合第三方面,本公开在第三方面的第一种实现方式中,计算第一语言文学作品与第二语言文学作品的标题之间的相似度,包括:
根据预设的所述第一语言与所述第二语言的互译词典计算第一语言文学作品的标题和第二语言文学作品的标题之间的相似度的第一相似度得分;
根据预设翻译工具对第一语言文学作品的标题进行翻译,得到翻译结果;
对翻译结果以及待匹配的第二语言文学作品的标题进行分词和重合度计算,计算第一语言文学作品的标题和第二语言文学作品的标题之间的相似度的第二相似度得分;
对所述第一相似度得分和所述第二相似度得分进行加权计算,以得到第一语言文学作品的标题和第二语言文学作品的标题之间的相似度。
结合第三方面,本公开在第三方面的第二种实现方式中,所述计算第一语言文学作品与第二语言文学作品的作者之间的匹配度,包括:
根据预设注音方案对第一语言文学作品的作者进行音译以获得音译作者名称;
根据所述音译作者名称与待匹配的第二语言文学作品的作者名称是否一致计算第一语言文学作品与第二语言文学作品的作者之间的匹配度。
结合第三方面,本公开在第三方面的第三种实现方式中,所述根据预设语料筛选规则对所述句对进行筛选以生成语料对,包括:
根据预设句对筛选规则,基于句对中的对应句之间的长度比和/或相似度对所述句对进行筛选;
根据筛选出的符合句对筛选规则的句对生成语料对。
结合第三方面,本公开在第三方面的第四种实现方式中,所述根据文学作品对中的第一语言文学作品和第二语言文学作品中的篇章内容以及篇章名称对第一语言文学作品和第二语言文学作品中的篇章进行对齐,包括:
对文学作品对中的第一语言文学作品和第二语言文学作品的篇章内容进行分词;
根据预设的所述第一语言与所述第二语言的互译词典翻译第一语言文学作品的篇章中的词以统计所述第一语言文学作品的篇章与第二语言文学作品的篇章中相同的n-gram的数量;
对第一语言文学作品的篇章与第二语言文学作品的篇章所组成的篇章对按照具有相同的n-gram的数量从高到低排序,并从所述排序的篇章对中筛选出前k个篇章对作为高相似度篇章对,其中,k为正整数;
计算所述高相似度篇章对中的所述第一语言的篇章名称与所述第二语言的篇章名称的相似度;
从所述高相似度篇章对中筛选出具有最高相似度的篇章名称的篇章对作为对齐的篇章。
结合第三方面的第四种实现方式,本公开在第三方面的第五种实现方式中,所述计算所述高相似度篇章对中的所述第一语言的篇章名称与所述第二语言的篇章名称的相似度,包括:
对所述高相似度篇章对中所述第一语言的篇章名称中的篇章号和所述第二语言的篇章名称中的篇章号进行归一化以计算所述第一语言的篇章名称中的篇章号和所述第二语言的篇章名称中的篇章号的差的绝对值;和/或
计算所述高相似度篇章对中所述第一语言的篇章名称中的篇章标名与所述第二语言的篇章名称中的篇章标名之间的相似度;
根据所述第一语言的篇章名称中的篇章号和所述第二语言的篇章名称中的篇章号的差的绝对值和/或所述第一语言的篇章名称中的篇章标名与所述第二语言的篇章名称中的篇章标名之间的相似度,计算所述高相似度篇章对中的所述第一语言的篇章名称与所述第二语言的篇章名称的相似度。
第四方面,本公开实施例中提供了一种语料生成装置,包括:
第一获取模块,被配置为获取第一语言文学作品、包含所述第一语言文学作品的标题、作者、摘要和篇章名称的第一语言文学作品特征数据、第二语言文学作品以及包含所述第二语言文学作品的标题、作者、摘要和篇章名称的第二语言文学作品特征数据;
第二获取模块,被配置获取所述第一语言文学作品的标题与所述第二语言文学作品的标题之间的映射关系以及作者之间的映射关系;
第一计算模块,被配置为计算所述第一语言文学作品与所述第二语言文学作品的标题之间的相似度、作者之间的匹配度、摘要之间的相似度和特定部分的内容之间的相似度;
第二计算模块,被配置为对所述第一语言文学作品与所述第二语言文学作品的标题之间的映射关系、作者之间的映射关系、标题之间的相似度、作者之间的匹配度、摘要之间的相似度和特定部分的内容之间的相似度进行加权计算,获取包含第一语言文学作品和第二语言文学作品的文学作品对;
对齐模块,被配置为根据文学作品对中的第一语言文学作品和第二语言文学作品中的篇章内容以及篇章名称对第一语言文学作品和第二语言文学作品中的篇章进行对齐;
第三获取模块,被配置为从对齐的篇章获取包含相互对应的第一语言的句与第二语言的句的句对;
生成模块,被配置为根据预设语料筛选规则对所述句对进行筛选以生成语料对。
第五方面,本公开实施例中提供了一种电子设备,包括存储器和处理器;其中,
所述存储器用于存储一条或多条计算机指令,其中,所述一条或多条计算机指令被所述处理器执行以实现如第一方面、第一方面的第一种实现方式至第九种实现方式、第三方面、第三方面的第一种实现方式至第五种实现方式任一项所述的方法。
第六方面,本公开实施例中提供了一种可读存储介质,其上存储有计算机指令,该计算机指令被处理器执行时实现如第一方面、第一方面的第一种实现方式至第九种实现方式、第三方面、第三方面的第一种实现方式至第五种实现方式任一项所述的方法。
本公开实施例提供的技术方案可以包括以下有益效果:
根据本公开实施例提供的技术方案,通过获取不同语言的文学作品以及文学作品的特征数据;根据所述文学作品的特征数据将不同语言的文学作品进行匹配,以获得不同语言的文学作品对;利用所述不同语言的文学作品对,获得不同语言的语料对,可以利用不同语言的文学作品的特点,结合标题、作者、摘要和文学作品的篇章名称进行文学作品匹配,获得不同语言的文学作品对,从而从不同语言的文学作品高效准确的自动生成高质量语料对。
根据本公开实施例提供的技术方案,通过所述文学作品的特征数据包括:文学作品的标题、作者、摘要、篇章名称中的一种或多种,可以利用不同语言的文学作品的特点,结合标题、作者、摘要和文学作品的篇章名称进行文学作品匹配,获得不同语言的文学作品对,从而从不同语言的文学作品高效准确的自动生成高质量语料对。
根据本公开实施例提供的技术方案,通过所述根据所述文学作品的特征数据将不同语言的文学作品进行匹配,以获得不同语言的文学作品对,包括:获得不同语言的文学作品的标题之间的映射关系;获得不同语言的文学作品的作者之间的映射关系;根据所述标题之间的映射关系以及所述作者之间的映射关系将不同语言的文学作品进行匹配,可以利用不同语言的文学作品的特点,结合标题、作者、摘要和文学作品的篇章名称进行文学作品匹配,获得不同语言的文学作品对,从而从不同语言的文学作品高效准确的自动生成高质量语料对。
根据本公开实施例提供的技术方案,通过所述方法还包括:计算不同语言的文学作品的标题之间的相似度;计算不同语言的文学作品的作者之间的匹配度;通过预设方式对所述标题之间的映射关系、所述标题之间的相似度、所述作者之间的映射关系和所述作者之间的匹配度进行加权计算,得到不同语言的文学作品对,可以利用不同语言的文学作品的特点,结合标题、作者、摘要和文学作品的篇章名称进行文学作品匹配,获得不同语言的文学作品对,从而从不同语言的文学作品高效准确的自动生成高质量语料对。
根据本公开实施例提供的技术方案,通过所述计算不同语言的文学作品的标题之间的相似度,包括:根据预设的多种语言的互译词典计算不同语言的文学作品的标题之间的相似度的第一相似度得分;根据预设翻译工具对不同语言的文学作品的标题进行翻译,得到翻译结果;对翻译结果以及待匹配的文学作品的标题进行分词和重合度计算,计算不同语言的文学作品的标题之间的相似度的第二相似度得分;对所述第一相似度得分和所述第二相似度得分进行加权计算,以得到不同语言的文学作品的标题之间的相似度,可以利用不同语言的文学作品的特点,结合标题、作者、摘要和文学作品的篇章名称进行文学作品匹配,获得不同语言的文学作品对,从而从不同语言的文学作品高效准确的自动生成高质量语料对。
根据本公开实施例提供的技术方案,通过所述计算不同语言的文学作品的作者之间的匹配度,包括:根据预设注音方案对不同语言的文学作品的作者进行音译以获得音译作者名称;根据所述音译作者名称与待匹配文学作品的作者名称是否一致计算不同语言的文学作品的作者之间的匹配度,可以利用不同语言的文学作品的特点,结合标题、作者、摘要和文学作品的篇章名称进行文学作品匹配,获得不同语言的文学作品对,从而从不同语言的文学作品高效准确的自动生成高质量语料对。
根据本公开实施例提供的技术方案,通过所述方法还包括:计算不同语言的文学作品的摘要之间的相似度;和/或计算不同语言的文学作品的特定部分的内容之间的相似度;对所述标题之间的映射关系、标题之间的相似度、作者之间的映射关系、作者之间的匹配度、摘要之间的相似度、和/或特定部分的内容之间的相似度进行加权计算,获取包含不同语言的文学作品对,可以利用不同语言的文学作品的特点,结合标题、作者、摘要和文学作品的篇章名称进行文学作品匹配,获得不同语言的文学作品对,从而从不同语言的文学作品高效准确的自动生成高质量语料对。
根据本公开实施例提供的技术方案,通过所述利用所述不同语言的文学作品对,获得不同语言的语料对,包括:根据所述文学作品的篇章内容和篇章名称对文学作品对中的不同语言的文学作品的篇章进行对齐;从文学作品中的已对齐的篇章中生成包含不同语言的对应句的句组;根据预设句组筛选规则,基于句组中的对应句之间的长度比和/或相似度对所述句组进行筛选;根据筛选出的符合句组筛选规则的句组生成语料对,可以利用不同语言的文学作品的特点,结合标题、作者、摘要和文学作品的篇章名称进行文学作品匹配和篇章对齐,从而从不同语言的文学作品高效准确的自动生成高质量语料对。
根据本公开实施例提供的技术方案,通过所述根据所述文学作品的篇章内容和篇章名称对文学作品对中的不同语言的文学作品的篇章进行对齐,包括:对文学作品对中的不同语言的篇章内容进行分词;根据预设的多种语言的互译词典翻译被译文学作品的篇章中的词以统计被译文学作品的篇章与待匹配文学作品的篇章中相同的n-gram的数量;对被译文学作品的篇章与待匹配文学作品的篇章所组成的篇章组按照具有相同的n-gram的数量从高到低排序,并从所述排序的篇章组中筛选出前k个篇章组作为高相似度篇章组,其中,k为正整数;计算所述高相似度篇章组中的不同语言的篇章名称的相似度;从所述高相似度篇章组中筛选出具有最高相似度的篇章名称的篇章组作为对齐的篇章,可以利用不同语言的文学作品的特点,结合标题、作者、摘要和文学作品的篇章名称进行文学作品匹配和篇章对齐,从而从不同语言的文学作品高效准确的自动生成高质量语料对。
根据本公开实施例提供的技术方案,通过所述计算所述高相似度篇章组中的不同语言的篇章名称的相似度,包括:对所述高相似度篇章组中不同语言的篇章名称中的篇章号进行归一化以计算不同语言的篇章号的差的绝对值;和/或计算所述高相似度篇章组中不同语言的篇章名称中的篇章标名之间的相似度;根据所述不同语言的篇章号的差的绝对值和/或不同语言的篇章名称中的篇章标名之间的相似度计算所述高相似度篇章组中的不同语言的篇章名称的相似度,可以利用不同语言的文学作品的特点,结合标题、作者、摘要和文学作品的篇章名称进行文学作品匹配和篇章对齐,从而从不同语言的文学作品高效准确的自动生成高质量语料对。
根据本公开实施例提供的技术方案,通过获取模块,被配置为获取不同语言的文学作品以及文学作品的特征数据;匹配模块,被配置为根据所述文学作品的特征数据将不同语言的文学作品进行匹配,以获得不同语言的文学作品对;获得模块,被配置为利用所述不同语言的文学作品对,获得不同语言的语料对,可以利用不同语言的文学作品的特点,结合标题、作者、摘要和文学作品的篇章名称进行文学作品匹配,获得不同语言的文学作品对,从而从不同语言的文学作品高效准确的自动生成高质量语料对。
根据本公开实施例提供的技术方案,通过获取第一语言文学作品、包含所述第一语言文学作品的标题、作者、摘要和篇章名称的第一语言文学作品特征数据、第二语言文学作品以及包含所述第二语言文学作品的标题、作者、摘要和篇章名称的第二语言文学作品特征数据;获取所述第一语言文学作品的标题与所述第二语言文学作品的标题之间的映射关系以及作者之间的映射关系;计算所述第一语言文学作品与所述第二语言文学作品的标题之间的相似度、作者之间的匹配度、摘要之间的相似度和特定部分的内容之间的相似度;对所述第一语言文学作品与所述第二语言文学作品的标题之间的映射关系、作者之间的映射关系、标题之间的相似度、作者之间的匹配度、摘要之间的相似度和特定部分的内容之间的相似度进行加权计算,获取包含第一语言文学作品和第二语言文学作品的文学作品对;根据文学作品对中的第一语言文学作品和第二语言文学作品中的篇章内容以及篇章名称对第一语言文学作品和第二语言文学作品中的篇章进行对齐;从对齐的篇章获取包含相互对应的第一语言的句与第二语言的句的句对;根据预设语料筛选规则对所述句对进行筛选以生成语料对,可以利用两种语言文学作品的特点,结合标题、作者、摘要和文学作品的篇章名称进行文学作品匹配和篇章对齐,从而从两种语言文学作品高效准确的自动生成高质量语料对。
根据本公开实施例提供的技术方案,通过计算第一语言文学作品与第二语言文学作品的标题之间的相似度,包括:根据预设的所述第一语言与所述第二语言的互译词典计算第一语言文学作品的标题和第二语言文学作品的标题之间的相似度的第一相似度得分;根据预设翻译工具对第一语言文学作品的标题进行翻译,得到翻译结果;对翻译结果以及待匹配的第二语言文学作品的标题进行分词和重合度计算,计算第一语言文学作品的标题和第二语言文学作品的标题之间的相似度的第二相似度得分;对所述第一相似度得分和所述第二相似度得分进行加权计算,以得到第一语言文学作品的标题和第二语言文学作品的标题之间的相似度,可以利用两种语言文学作品的特点,结合标题、作者、摘要和文学作品的篇章名称进行文学作品匹配和篇章对齐,从而从两种语言文学作品高效准确的自动生成高质量语料对。
根据本公开实施例提供的技术方案,通过所述计算第一语言文学作品与第二语言文学作品的作者之间的匹配度,包括:根据预设注音方案对第一语言文学作品的作者进行音译以获得音译作者名称;根据所述音译作者名称与待匹配的第二语言文学作品的作者名称是否一致计算第一语言文学作品与第二语言文学作品的作者之间的匹配度,可以利用两种语言文学作品的特点,结合标题、作者、摘要和文学作品的篇章名称进行文学作品匹配和篇章对齐,从而从两种语言文学作品高效准确的自动生成高质量语料对。
根据本公开实施例提供的技术方案,通过所述根据预设语料筛选规则对所述句对进行筛选以生成语料对,包括:根据预设句对筛选规则,基于句对中的对应句之间的长度比和/或相似度对所述句对进行筛选;根据筛选出的符合句对筛选规则的句对生成语料对,可以利用两种语言文学作品的特点,结合标题、作者、摘要和文学作品的篇章名称进行文学作品匹配和篇章对齐,从而从两种语言文学作品高效准确的自动生成高质量语料对。
根据本公开实施例提供的技术方案,通过所述根据文学作品对中的第一语言文学作品和第二语言文学作品中的篇章内容以及篇章名称对第一语言文学作品和第二语言文学作品中的篇章进行对齐,包括:对文学作品对中的第一语言文学作品和第二语言文学作品的篇章内容进行分词;根据预设的所述第一语言与所述第二语言的互译词典翻译第一语言文学作品的篇章中的词以统计所述第一语言文学作品的篇章与第二语言文学作品的篇章中相同的n-gram的数量;对第一语言文学作品的篇章与第二语言文学作品的篇章所组成的篇章对按照具有相同的n-gram的数量从高到低排序,并从所述排序的篇章对中筛选出前k个篇章对作为高相似度篇章对,其中,k为正整数;计算所述高相似度篇章对中的所述第一语言的篇章名称与所述第二语言的篇章名称的相似度;从所述高相似度篇章对中筛选出具有最高相似度的篇章名称的篇章对作为对齐的篇章,可以利用两种语言文学作品的特点,结合标题、作者、摘要和文学作品的篇章名称进行文学作品匹配和篇章对齐,从而从两种语言文学作品高效准确的自动生成高质量语料对。
根据本公开实施例提供的技术方案,通过所述计算所述高相似度篇章对中的所述第一语言的篇章名称与所述第二语言的篇章名称的相似度,包括:对所述高相似度篇章对中所述第一语言的篇章名称中的篇章号和所述第二语言的篇章名称中的篇章号进行归一化以计算所述第一语言的篇章名称中的篇章号和所述第二语言的篇章名称中的篇章号的差的绝对值;和/或计算所述高相似度篇章对中所述第一语言的篇章名称中的篇章标名与所述第二语言的篇章名称中的篇章标名之间的相似度;根据所述第一语言的篇章名称中的篇章号和所述第二语言的篇章名称中的篇章号的差的绝对值和/或所述第一语言的篇章名称中的篇章标名与所述第二语言的篇章名称中的篇章标名之间的相似度,计算所述高相似度篇章对中的所述第一语言的篇章名称与所述第二语言的篇章名称的相似度,可以利用两种语言文学作品的特点,结合标题、作者、摘要和文学作品的篇章名称进行文学作品匹配和篇章对齐,从而从两种语言文学作品高效准确的自动生成高质量语料对。
根据本公开实施例提供的技术方案,通过第一获取模块,被配置为获取第一语言文学作品、包含所述第一语言文学作品的标题、作者、摘要和篇章名称的第一语言文学作品特征数据、第二语言文学作品以及包含所述第二语言文学作品的标题、作者、摘要和篇章名称的第二语言文学作品特征数据;第二获取模块,被配置获取所述第一语言文学作品的标题与所述第二语言文学作品的标题之间的映射关系以及作者之间的映射关系;第一计算模块,被配置为计算所述第一语言文学作品与所述第二语言文学作品的标题之间的相似度、作者之间的匹配度、摘要之间的相似度和特定部分的内容之间的相似度;第二计算模块,被配置为对所述第一语言文学作品与所述第二语言文学作品的标题之间的映射关系、作者之间的映射关系、标题之间的相似度、作者之间的匹配度、摘要之间的相似度和特定部分的内容之间的相似度进行加权计算,获取包含第一语言文学作品和第二语言文学作品的文学作品对;对齐模块,被配置为根据文学作品对中的第一语言文学作品和第二语言文学作品中的篇章内容以及篇章名称对第一语言文学作品和第二语言文学作品中的篇章进行对齐;第三获取模块,被配置为从对齐的篇章获取包含相互对应的第一语言的句与第二语言的句的句对;生成模块,被配置为根据预设语料筛选规则对所述句对进行筛选以生成语料对,可以利用两种语言文学作品的特点,结合标题、作者、摘要和文学作品的篇章名称进行文学作品匹配和篇章对齐,从而从两种语言文学作品高效准确的自动生成高质量语料对。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
结合附图,通过以下非限制性实施方式的详细描述,本公开的其它标签、目的和优点将变得更加明显。在附图中:
图1示出根据本公开一实施方式的语料生成方法的流程图;
图2示出根据本公开一实施方式的语料生成装置的结构框图;
图3示出利用根据本公开一实施方式的语料生成方法利用双语言版本小说生成语料对的一个示例性应用方案的示意图;
图4示出根据本公开另一实施方式的语料生成方法的流程图;
图5示出根据本公开另一实施方式的语料生成装置的结构框图;
图6示出根据本公开一实施方式的电子设备的结构框图;
图7是适于用来实现根据本公开实施方式的语料生成方法的计算机系统的结构示意图。
具体实施方式
下文中,将参考附图详细描述本公开的示例性实施方式,以使本领域技术人员可容易地实现它们。此外,为了清楚起见,在附图中省略了与描述示例性实施方式无关的部分。
在本公开中,应理解,诸如“包括”或“具有”等的术语旨在指示本说明书中所公开的标签、数字、步骤、行为、部件、部分或其组合的存在,并且不欲排除一个或多个其他标签、数字、步骤、行为、部件、部分或其组合存在或被添加的可能性。
另外还需要说明的是,在不冲突的情况下,本公开中的实施例及实施例中的标签可以相互组合。下面将参考附图并结合实施例来详细说明本公开。
根据本公开实施例提供的技术方案,通过获取不同语言的文学作品以及文学作品的特征数据;根据所述文学作品的特征数据将不同语言的文学作品进行匹配,以获得不同语言的文学作品对;利用所述不同语言的文学作品对,获得不同语言的语料对,可以利用不同语言的文学作品的特点,结合标题、作者、摘要和文学作品的篇章名称进行文学作品匹配,获得不同语言的文学作品对,从而从不同语言的文学作品高效准确的自动生成高质量语料对。
图1示出根据本公开一实施方式的语料生成方法的流程图。如图1所示,语料生成方法包括以下步骤S110、S120和S130:
在步骤S110中,获取不同语言的文学作品以及文学作品的特征数据。
在步骤S120中,根据所述文学作品的特征数据将不同语言的文学作品进行匹配,以获得不同语言的文学作品对。
在步骤S130中,利用所述不同语言的文学作品对,获得不同语言的语料对。
在本公开的一个实施例中,文学作品可以是具一个句子或多个句子的组合。文学作品可以由句子、段落和/或篇章构成。在本公开的一个实施例中,文学作品可以指的是小说、诗歌、剧本等各种形式的由文字构成的有文学性的文本。
在本公开的一个实施例中,不同语言指的是存在多种语言版本,或者说,不同语言可以指的是多种自然语言,不同语言的文学作品可以指的是以多种自然语言表达的文本。例如,一部以中文撰写的小说,被分别翻译为英文版小说和日文版小说,则存在三种语言版本的小说。在本公开的一个实施例中,这三种语言版本的小说可以被称为平行文本或匹配的文学作品,即,内容表达一致且表达语言不同的文学作品。从广义的角度理解,匹配的文学作品也包括与原文内容相似的译出语资料,主要用于更深入地理解原文。从此角度看,匹配的文学作品可以包括与原文内容接近的任何参考资料。在本公开的一个实施例中,相互匹配的两种不同语言的文学作品可以构成文学作品对。例如,上述中文版、英文版小说和日文版小说可以构成3个文学作品对,即,中英文文学作品对、中日文文学作品对和英日文文学作品对。
在本公开的一个实施例中,文学作品的特征数据可以指的是表征文学作品的特征以使当前文学作品可以与其他文学作品区分开的数据。在本公开的一个实施例中,所述文学作品的特征数据包括:文学作品的标题、作者、摘要、篇章名称中的一种或多种。例如,中文文学作品的标题是“一支钢笔”,平行的(或称之为对应的)英文文学作品的标题是“APen”。因此,中文文学作品的特征数据包括标题“一支钢笔”,英文文学作品的特征数据包括标题“A Pen”。
根据本公开实施例提供的技术方案,通过所述文学作品的特征数据包括:文学作品的标题、作者、摘要、篇章名称中的一种或多种,可以利用不同语言的文学作品的特点,结合标题、作者、摘要和文学作品的篇章名称进行文学作品匹配,获得不同语言的文学作品对,从而从不同语言的文学作品高效准确的自动生成高质量语料对。
在本公开的一个实施例中,文学作品的特征数据不限于文学作品的标题、作者、摘要和篇章名称,还可以包括诸如段落结构、数量之类的表征文学作品的特征。本公开对此不做赘述。
在本公开的一个实施例中,可以针对所获取的每一种语言版本的文学作品获取相应的特征数据。例如,当存在中文文学作品、英文文学作品和日文文学作品时,可以获取中文文学作品和中文文学作品的特征数据,可以获取英文文学作品和英文文学作品的特征数据,还可以获取日文文学作品和日文文学作品的特征数据。
在本公开的一个实施例中,为了生成不同语言的语料需要对多种语言版本的文学作品进行匹配(对齐)。例如,可以利用数据库中的文学作品的标题、作者、摘要和篇章名称中的至少之一进行对齐以获取包含不同语言的文学作品对。在本公开的一个实施例中,可以利用标题对不同语言的文学作品进行匹配。例如,中文文学作品的标题是“一支钢笔”,英文文学作品的标题是“A Pen”,可以通过中英文翻译确定“一支钢笔”与“A Pen”一致。由此将本标题是“一支钢笔”的中文文学作品与标题是“A Pen”的英文文学作品匹配,以生成包含相应的中文文学作品和英文文学作品的文学作品对。
应该注意,仅利用标题、作者、摘要和篇章名称之一对文学作品进行匹配可能导致匹配失败。例如,如果中文文学作品数据库中存储有多篇由不同作者撰写的标题为“一支钢笔”的文学作品,同时英文文学作品数据库中存储有从标题为“一支钢笔”的多篇文学作品翻译而来的标题为“A Pen”的文学作品,这些文学作品的内容相互之间存在不同,则导致难以匹配,因此不能获得包含相应的中文文学作品和英文文学作品的文学作品对。同样的问题也可能存在于仅利用作者、摘要和篇章名称之一进行文学作品匹配的情况。
因此,可以利用文学作品数据库中的文学作品的标题、作者、摘要和篇章名称中的多项来对文学作品进行匹配,由此可以实现更精确的文学作品匹配。例如,如果中文文学作品数据库中存储有多篇由不同作者撰写的标题为“一支钢笔”的文学作品,其中一个文学作品的作者是“张三”;同时英文文学作品数据库中存储有从标题为“一支钢笔”的多篇文学作品翻译而来的标题为“A Pen”的文学作品,其中一个文学作品的作者是汉字“张三”通过汉语拼音音译得到的英文文字“ZHANG San”,则可以将标题为“一支钢笔”且作者是“张三”的文学作品与标题为“A Pen”且作者是“ZHANG San”的文学作品匹配,从而获取包含中英文版本的匹配的文学作品对。因此,利用文学作品数据库中的文学作品的标题、作者、摘要和篇章名称中的多项对多种语言版本的文学作品进行匹配可以提高文学作品匹配的准确度。另外,本领域技术人员可以理解,文学作品的作者名称可以音译也可以采用作者以各种语言取的相应名字。例如,基于上述例子,如果中文文学作品的作者是“张三”,并且作者“张三”的文学作品译为英文时采用的英文作者名称是“Tim ZHANG”,则可以将标题为“一支钢笔”且作者是“张三”的文学作品与标题为“A Pen”且作者是“Tim ZHANG”的文学作品匹配,从而获取包含中英文版本的文学作品的文学作品对。
在本公开的一个实施例中,所要生成的语料对可以是不同语言的语料对,语料对对应于句组。例如,语料对(双语语料)指的是使用两种不同语言描述的同一句话,这一对句子(句对或句组)就是双语语料。例如,“我爱中国”和“I love China"就是一个双语语料。因此,在完成文学作品匹配以获得文学作品对后,还需要对文学作品对的内容进行对齐,以获取对齐的句组以生成语料对。
在本公开的一个实施例中,同一种语言可能存在不同的符号,例如,简体中文“我爱中国”与繁体中文“我愛中國”是同一种语言中对同一文本含义的不同符号表达。一些情况下,简体中文的文学作品与繁体中文的文学作品采用同一种语法表达,例如,现代作家写作的小说,则可以认为简体中文的文学作品与繁体中文的文学作品是相同的,而无需生成语料对。另一些情况下,简体中文的文学作品与繁体中文的文学作品未采用同一种语法表达,例如,古代作家写作的繁体字文学作品与经过现代翻译的文本,由于二者之间的语法表述不一致,则难以直接确定二者是相同的,此时可能需要生成语料对。例如,繁体字古诗“蒹葭蒼蒼,白露為霜”与简体字现代译文“芦苇密密又苍苍,晶莹露水结成霜”由于用词和语法表述有区别,可能需要根据古诗的标题、作者、篇章名称等特征数据来进行匹配,由此输出语料对。又例如,对于繁体字古诗“蒹葭蒼蒼,白露為霜”与其英文翻译“The young shootsof reeds are grey,The white dew looks like frost”,可能需要对古诗标题之间的映射关系、标题之间的相似度、作者之间的映射关系、作者之间的匹配度、摘要之间的相似度、和/或特定部分的内容之间的相似度进行加权计算,获取包含不同语言的文学作品对,由此才能够获得这句古诗的双语句组(句对,语料对)。同理,可以获得简体字诗句“芦苇密密又苍苍,晶莹露水结成霜”与其英文翻译“The young shoots of reeds are grey,The whitedew looks like frost”的双语句组(句对,语料对)。
通过以上实施例可知,对于一种语言中可能存在的多种符号系统,例如,中文包括简体中文、繁体中文、粤语中文等符号系统,对于利用这些符号系统完成的文学作品,其表述方式可能存在差距过大的情况,因此可能需要通过文学作品对齐来生成文学作品对,进而获得语料对。在此情况下,在本公开的一个实施例中,为了获得语料对,可以将同一语言的不同符号系统认为是不同语言。以此类推,对于各种语言以及每种语言自身的多种符号系统,都可以采用本公开实施例中的语料生成方法来生成语料对。因此,无论各种语言或语言符号系统的差距的大小,都可以采用根据本公开实施例的语料生成方法来生成语料对。换言之,只要可以提取出不同语言或同一语言的不同符号系统的文学作品的特征数据将不同语言的文学作品进行匹配,就可以获得不同语言的文学作品对,进而获得不同语言的语料对。
在本公开的一个实施例中,以上以两种语言的文学作品举例说明了语料生成方法,本领域技术人员可以理解,本公开实施例的方案可以应用于生成三种或更多种语言的语料。
在本公开的一个实施例中,步骤S120包括:获得不同语言的文学作品的标题之间的映射关系;获得不同语言的文学作品的作者之间的映射关系;根据标题之间的映射关系以及作者之间的映射关系将不同语言的文学作品进行匹配。
根据本公开实施例提供的技术方案,通过根据所述文学作品的特征数据将不同语言的文学作品进行匹配,以获得不同语言的文学作品对,包括:获得不同语言的文学作品的标题之间的映射关系;获得不同语言的文学作品的作者之间的映射关系;根据标题之间的映射关系以及作者之间的映射关系将不同语言的文学作品进行匹配,可以利用不同语言的文学作品的特点,结合标题、作者、摘要和文学作品的篇章名称进行文学作品匹配,获得不同语言的文学作品对,从而从不同语言的文学作品高效准确的自动生成高质量语料对。
在本公开的一个实施例中,获得不同语言的文学作品的标题之间的映射关系可以指的是通过访问互联网或特定数据库等手段获取相应语言版本的文学作品数据库中的全部文学作品或部分文学作品的多种语言版本的标题映射关系(比如小说《西游记》的中文名称与英文小说名称“Journey to the West”的映射关系)。
在本公开的一个实施例中,获得不同语言的文学作品的作者之间的映射关系可以指的是通过访问互联网或特定数据库等手段获取相应语言版本的文学作品数据库中的全部文学作品或部分文学作品的多种语言版本的作者映射关系(比如小说《西游记》的作者“吴承恩”与英文作者“WU Chengen”的映射关系)。
在本公开的一个实施例中,根据标题之间的映射关系以及作者之间的映射关系将不同语言的文学作品进行匹配。例如,通过文学作品的标题“西游记”与“Journey to theWest”的映射关系以及文学作品“西游记”的作者“吴承恩”与“WU Chengen”的映射关系,可以从中文文学作品数据库获取包含不同语言的文学作品对。在本公开的一个实施例中,可以将标题的映射关系保存到“标题对齐数据”中。在本公开的一个实施例中,可以将作者的映射关系保存到“作者对齐数据”中。在本公开的一个实施例中,可以将“标题对齐数据”和“作者对齐数据”保存到“文学作品匹配数据”中。因此,文学作品匹配数据中保存有已经确定的文学作品对中的多种语言版本的文学作品的“标题对齐数据”和“作者对齐数据”。
在本公开的一个实施例中,是否可以从“标题对齐数据”获取到不同语言的文学作品的标题的映射关系指的是不同语言的文学作品的标题是否匹配。如果可以从“标题对齐数据”获取到不同语言的文学作品的标题的映射关系,则表示不同语言的文学作品的标题匹配。如果可以从“标题对齐数据”获取不到不同语言的文学作品的标题的映射关系,则表示不同语言的文学作品的标题不匹配。在此情况下,根据标题的映射关系获取包含不同语言的文学作品对可以指的是利用不同语言的文学作品的标题的匹配程度得分(例如,记作title_match_score)来计算文学作品匹配得分。例如,如果不同语言的文学作品的标题匹配,则获得不同语言的文学作品的标题匹配得分title_match_score为1。例如,如果不同语言的文学作品的标题不匹配,则获得不同语言的文学作品的标题匹配得分title_match_score为0。
在本公开的一个实施例中,是否可以从“作者对齐数据”获取到不同语言的文学作品的作者的映射关系指的是不同语言的文学作品的作者是否匹配。如果可以从“作者对齐数据”获取到不同语言的文学作品的作者的映射关系,则表示不同语言的文学作品的作者匹配。如果可以从“作者对齐数据”获取不到不同语言的文学作品的作者的映射关系,则表示不同语言的文学作品的作者不匹配。在此情况下,根据作者的映射关系获取包含不同语言的文学作品对可以指的是利用不同语言的文学作品的作者的匹配程度得分(例如,记作author_match_score)来计算文学作品匹配得分。例如,如果不同语言的文学作品的作者匹配,则获得不同语言的文学作品的作者匹配得分author_match_score为1。例如,如果不同语言的文学作品的作者不匹配,则获得不同语言的文学作品的作者匹配得分author_match_score为0。
例如,当不同语言的文学作品的标题匹配得分title_match_score为1并且不同语言的文学作品的作者匹配得分author_match_score为1时,可以由此确定不同语言的文学作品是匹配的文学作品,由此可以获得匹配的文学作品的文学作品对。
应该理解,以上对不同语言的文学作品的标题匹配得分和作者匹配得分的表示方式和打分方式仅仅是示例,其目的是为了实现根据所述标题之间的映射关系以及所述作者之间的映射关系将不同语言的文学作品进行匹配。因此,本领域技术人员可以根据本公开的教导采用各种方式来获取包含不同语言的文学作品对。
本领域技术人员可以理解,通过获取已经存在的标题的映射关系和作者的映射关系,可以简化文学作品匹配的过程,可以准确快速地获得包含不同语言的文学作品对。
在本公开的一个实施例中,步骤S120还包括:计算不同语言的文学作品的标题之间的相似度;计算不同语言的文学作品的作者之间的匹配度;通过预设方式对所述标题之间的映射关系、所述标题之间的相似度、所述作者之间的映射关系和所述作者之间的匹配度进行加权计算,得到不同语言的文学作品对。
根据本公开实施例提供的技术方案,通过根据所述文学作品的特征数据将不同语言的文学作品进行匹配,以获得不同语言的文学作品对,还包括:计算不同语言的文学作品的标题之间的相似度;计算不同语言的文学作品的作者之间的匹配度;通过预设方式对所述标题之间的映射关系、所述标题之间的相似度、所述作者之间的映射关系和所述作者之间的匹配度进行加权计算,得到不同语言的文学作品对,可以利用不同语言的文学作品的特点,结合标题、作者、摘要和文学作品的篇章名称进行文学作品匹配,获得不同语言的文学作品对,从而从不同语言的文学作品高效准确的自动生成高质量语料对。
在某些情况下,可能无法对多种语言版本的文学作品数据库中的文学作品获取文学作品的标题的映射关系和作者的映射关系。在另一些情况下,由于互联网资源或特定数据库的可靠性问题,仅通过获取已经存在的标题的映射关系和作者的映射关系可能不足以准确地对文学作品进行匹配。因此,可以通过计算不同语言的文学作品的标题之间的相似度,并且计算不同语言的文学作品的作者之间的匹配度,进行文学作品匹配。
在本公开的一个实施例中,计算不同语言的文学作品的标题之间的相似度,包括:根据预设的多种语言的互译词典计算不同语言的文学作品的标题之间的相似度的第一相似度得分;根据预设翻译工具对不同语言的文学作品的标题进行翻译,得到翻译结果;对翻译结果以及待匹配的文学作品的标题进行分词和重合度计算,计算不同语言的文学作品的标题之间的相似度的第二相似度得分;对所述第一相似度得分和所述第二相似度得分进行加权计算,以得到不同语言的文学作品的标题之间的相似度。
根据本公开实施例提供的技术方案,通过计算不同语言的文学作品的标题之间的相似度,包括:根据预设的多种语言的互译词典计算不同语言的文学作品的标题之间的相似度的第一相似度得分;根据预设翻译工具对不同语言的文学作品的标题进行翻译,得到翻译结果;对翻译结果以及待匹配的文学作品的标题进行分词和重合度计算,计算不同语言的文学作品的标题之间的相似度的第二相似度得分;对所述第一相似度得分和所述第二相似度得分进行加权计算,以得到不同语言的文学作品的标题之间的相似度,可以利用不同语言的文学作品的特点,结合标题、作者、摘要和文学作品的篇章名称进行文学作品匹配,获得不同语言的文学作品对,从而从不同语言的文学作品高效准确的自动生成高质量语料对。
在本公开的一个实施例中,如果不同语言的文学作品的标题没有出现在“标题对齐数据”中,则需要对不同语言的文学作品的标题的相似度进行计算打分。例如,可以根据预设的多种语言的互译词典计算不同语言的文学作品的标题之间的相似度的第一相似度得分。互译词典可以指的是提供各种语言的相互表示的方式的词典,可以包括双语词典、三语词典或更多种语言的词典等。例如,对于中英双语词典,包含的内容形如键值对:“中国”:“China”。在本公开的一个实施例中,预设的多种语言的互译词典还可以包括互译概率词典,互译概率词典指的是将一种语言的字词用其他种语言来表示,并且给出词对之间互相翻译的概率的词典。以下以中英互译概率词典为例说明计算中英文文学作品的标题之间的相似度的第一相似度得分的方式。首先对中英文标题分别分词,然后通过预设的中英互译概率词典(其中包括中英文某两个词之间相互翻译的概率,概率数据可以来源于平行语料的词对齐统计数据),计算出两个标题之间的相似度得分作为第一相似度得分,例如,以title_similarity_score_1表示。
在本公开的一个实施例中,在不同语言的文学作品的标题的相似度进行计算打分时,还可以根据预设翻译工具对不同语言的文学作品的标题进行翻译,得到翻译结果;对翻译结果以及待匹配的文学作品的标题进行分词和重合度计算,计算不同语言的文学作品的标题之间的相似度的第二相似度得分。可以利用预设翻译工具得到翻译结果,计算不同语言的文学作品的标题之间的相似度的第二相似度得分。预设翻译工具指的是机器翻译工具,其可以是硬件翻译工具、软件翻译工具或软硬件结合的翻译工具。以预设的中英文翻译工具为例,可以将中文文学作品的标题A通过翻译工具(例如,机器翻译引擎)翻译成英文,记作A_1。对翻译工具结果A_1和英文文学作品的标题B首先进行英文的分词操作,然后通过计算A_1和B分词结果的编辑距离以及n-gram(或者称之为n元模型、n元组、n元语法等)重合度算出相似度的第二相似度得分,例如,以title_similarity_score_2表示。在本公开的一个实施例中,n个相连的词连在一起就是n-gram,其中,n是正整数,例如,1、2等。例如,2-gram指的是两个词组成分词结果。例如,“我爱中国”包含了2个2-gram,分别是:“我爱”和“爱中国”。本领域技术人员可以理解,计算A_1和B分词结果的编辑距离以及n-gram重合度的方式可以采用相关技术中已知的方式进行,本公开对此不再赘述。
在本公开的一个实施例中,可以通过对第一相似度得分和第二相似度得分进行加权计算来得到不同语言的文学作品的标题之间的相似度。参照以上的计算中英文文学作品的标题之间的相似度的例子,可以对第一相似度得分title_similarity_score_1和第二相似度得分title_similarity_score_2进行加权计算来获得中英文文学作品的标题之间的相似度title_similarity_score。例如,对第一相似度得分title_similarity_score_1设定权重w1,对第二相似度得分title_similarity_score_2设定权重w2,则title_similarity_score=title_similarity_score_1*w1+title_similarity_score_2*w2。在另一个示例中,title_similarity_score=(title_similarity_score_1*w1+title_similarity_score_2*w2)/2。应该理解,计算中英文文学作品的标题之间的相似度的方式不限于以上两个示例,本领域技术人员根据本公开实施例的教导可以采用各种方式对第一相似度得分和第二相似度得分进行加权计算来得到不同语言的文学作品的标题之间的相似度。
以上参照中英文文学作品匹配的示例讨论了中英文文学作品的标题之间的相似度的计算方式。本领域技术人员可以理解,可以通过以上方式对双语、三语或更多种不同语言的文学作品的标题的相似度进行计算,其具体计算方式可以从以上示例和相关技术中获得,在此不作赘述。
在本公开的一个实施例中,通过上述不同语言的文学作品的标题之间的相似度的计算方式,即使出现无法对多种语言版本的文学作品数据库中的文学作品获取文学作品的标题的映射关系的情况,或者由于互联网资源或特定数据库的可靠性问题,仅通过获取已经存在的标题的映射关系和作者的映射关系可能不足以准确对齐文学作品的情况,也可以利用多种语言的互译词典以及预设翻译工具对不同语言的文学作品的标题之间的相似度分别进行打分计算,进而对打分计算结果进行加权计算来获得文学作品标题之间的相似度。
在本公开的一个实施例中,计算不同语言的文学作品的作者之间的匹配度,包括:根据预设注音方案对不同语言的文学作品的作者进行音译以获得音译作者名称;根据所述音译作者名称与待匹配文学作品的作者名称是否一致计算不同语言的文学作品的作者之间的匹配度。
根据本公开实施例提供的技术方案,通过计算不同语言的文学作品的作者之间的匹配度,包括:根据预设注音方案对不同语言的文学作品的作者进行音译以获得音译作者名称;根据所述音译作者名称与待匹配文学作品的作者名称是否一致计算不同语言的文学作品的作者之间的匹配度,可以利用不同语言的文学作品的特点,结合标题、作者、摘要和文学作品的篇章名称进行文学作品匹配,获得不同语言的文学作品对,从而从不同语言的文学作品高效准确的自动生成高质量语料对。
在本公开的一个实施例中,可能出现无法对多种语言版本的文学作品数据库中的文学作品获取文学作品的作者的映射关系的情况。在本公开的另一个实施例中,可能出现由于互联网资源或特定数据库的可靠性问题,仅通过获取已经存在的标题的映射关系和作者的映射关系可能不足以准确对齐文学作品的情况。因此,需要对不同语言的文学作品的作者进行翻译以及匹配以对齐作者。在本公开的一个实施例中,种语言文学作品的标题通常可以通过翻译来获得,而文学作品的作者名称通常难以直接翻译,因此,可以按照预设的多种语言之间的注音方案来对不同语言的文学作品的作者进行音译以获得音译作者名称。以中英文文学作品的作者名称翻译为例,有些作者的英文名可以直接取自其中文名称的汉语拼音(可以采用中国国家标准的汉语拼音方案),所以如果中文文学作品A和英文文学作品B的作者对(作者组)不在“作者对齐数据”中出现或者如果对“作者对齐数据”中的作者对可靠性存在疑问,则可以对于该文学作品的中文作者进行拼音获取。如果从中文文学作品A获取的作者名称的拼音与英文文学作品B的作者名称一致,则可以获得作者名称转拼音与英文名称进行匹配的匹配得分,例如,记作author_pinyin_match_score。在本公开的一个实施例中,如果从第一语言文学作品A获取的作者名称的第二语言注音与第二语言文学作品B的作者一致,则可以获得作者名称转第二语言注音与第二语言名称进行匹配的匹配得分,例如,记作author_zhuyin_match_score。
在本公开的一个实施例中,在进行中文文学作品到英文文学作品的中英文作者匹配时可以采用中文汉语拼音标准作为预设注音方案,而在进行其他语言的作者匹配时可以采用其他的注音方案作为预设注音方案,在需要对齐的文学作品包括三种语言或更不同语言的文学作品时,可以采用多种注音方案作为预设注音方案。
在本公开的一个实施例中,根据所述音译作者名称与待匹配文学作品的作者名称是否一致计算不同语言的文学作品的作者之间的匹配度可以指的是当音译作者名称与待匹配作者名称一致时,获得不同语言的文学作品的作者名称之间的匹配度得分1,当音译作者名称与待匹配作者名称不一致时,获得不同语言的文学作品的作者名称之间的匹配度得分0。以中英文文学作品匹配为例,如果中文文学作品的作者名称为“张三”,则根据预设注音方案将作者名称进行音译以获得音译作者名称“ZHANG San”,如果英文文学作品的作者名称也是“ZHANG San”,则作者名称转拼音与英文名称进行匹配的匹配得分author_pinyin_match_score为1。在另一示例中,如果中文文学作品的作者音译作者名称为“ZHANGSan”,而英文文学作品的作者名称是“LI Si”,则作者名称转拼音与英文名称进行匹配的匹配得分author_pinyin_match_score为0。应该注意,作者名称转拼音与英文名称进行匹配的匹配得分仅仅是计算不同语言的文学作品的作者之间的匹配度的一种方式,还可以通过其他方式来确定不同语言的文学作品的作者之间的匹配度得分。
在本公开的一个实施例中,由于中文存在方言或者不同于国家标准的汉语拼音的注音体系,将不同语言的文学作品的作者名称进行匹配的方式可能要考虑更复杂的情况。例如,根据国家标准的汉语拼音注音方案将作者名称“张三”进行音译以获得音译作者名称“ZHANG San”,而英文文学作品的作者名称是“ZOENG Saam”,即,英文文学作品的作者名称“ZOENG Saam”是“张三”的粤语注音。又例如,英文文学作品的作者名称是“DIONG Sa”,即,英文文学作品的作者名称“DIONG Sa”是“张三”的闽南语注音。因此,如果仅根据国家标准的汉语拼音的注音方案对作者名称进行音译,则会导致实际上匹配的中文作者名称转粤语拼音或闽南语拼音与英文名称进行匹配的匹配得分author_pinyin_match_score为0。为了解决这一问题,在进行中文文学作品到英文文学作品的中英文作者匹配时,可以采用包括多种已知的汉语拼音方案的汉语注音方案,例如,包括多种汉语方言的拼音方案。即,可以根据利用多种汉语方言的拼音方案获得的对中文音译作者名称与待匹配文学作品的作者名称是否一致计算不同语言的文学作品的作者之间的匹配度。类似地,对于其他语种,如果存在同一种文字有不同注音规则的情况,也可以采用采用包括多种已知的注音规则的注音方案来对作者名称注音与翻译名称进行匹配。
以此类推,可以对不同语言的文学作品的标题之间的相似度、摘要之间的相似度、和/或特定部分的内容之间的相似度采用以上实施例讨论的根据包括多种已知的注音规则的预设注音方案来进行匹配。
在本公开的实施例中,在任何同一种文字具有多种注音方案的情况下,可以根据各种注音方案来获取该种文字的注音表达,并且确定待匹配的作者名称是否一致。在需要对注音结果进行匹配的情况下,可以采用各种注音方案对语言所做的注音都可以用于与待匹配的语言进行比较。可以理解,在本公开的实施例中,注音方案是用于进行不同语言文学作品匹配的工具,完成文学作品匹配后,获得的不同语言的文学作品对可以不对注音方案的做出限定。
在本公开的一个实施例中,当“标题对齐数据”中存在标题的映射关系时,计算出的标题之间的相似度title_similarity_score的权重可能低于标题的映射关系的权重,即,文学作品的标题匹配得分title_match_score的权重。在本公开的一个实施例中,当“标题对齐数据”中不存在标题的映射关系时,计算出的标题之间的相似度title_similarity_score的权重可能高于标题的映射关系的权重,即,文学作品的标题匹配得分title_match_score的权重。
在本公开的一个实施例中,当“作者对齐数据”中存在作者的映射关系时,计算出的作者转第二语言注音与第二语言名称进行匹配的匹配得分author_zhuyin_match_score的权重可能低于作者的映射关系的权重,即,文学作品的作者匹配得分author_match_score的权重。在本公开的一个实施例中,当“作者对齐数据”中不存在作者的映射关系时,计算出的作者名称转第二语言注音与第二语言名称进行匹配的匹配得分author_zhuyin_match_score的权重可能高于作者的映射关系的权重,即,文学作品的作者匹配得分author_match_score的权重。
在本公开的一个实施例中,对标题的映射关系、计算出的标题之间的相似度、作者的映射关系和计算出的作者之间的匹配度进行加权计算的预设方式可以是将各个值加权相加所得的值作为不同语言的文学作品的匹配的文学作品(文学作品对)得分。在本公开的一个实施例中,对标题的映射关系、计算出的标题之间的相似度、作者的映射关系和计算出的作者之间的匹配度进行加权计算的预设方式可以是将各个值加权相加后再除以特定值所得的值作为不同语言的文学作品的匹配的文学作品得分。即,根据本公开实施例的教导,本领域技术人员可以采用各种方式计算不同语言的文学作品作为匹配的文学作品得分。
在本公开的一个实施例中,可以为不同语言的文学作品作为匹配的文学作品得分设定匹配的文学作品得分阈值。在本公开的一个实施例中,当匹配的文学作品得分超过预设匹配的文学作品得分阈值时,确定不同语言的文学作品是匹配的文学作品。本公开的一个实施例中,当匹配的文学作品得分不超过预设匹配的文学作品得分阈值时,确定不同语言的文学作品不是平行文学作品。
在本公开的一个实施例中,步骤S120还包括:计算不同语言的文学作品的摘要之间的相似度;和/或计算不同语言的文学作品的特定部分的内容之间的相似度;对所述标题之间的映射关系、标题之间的相似度、作者之间的映射关系、作者之间的匹配度、摘要之间的相似度、和/或特定部分的内容之间的相似度进行加权计算,获取包含不同语言的文学作品对。
根据本公开实施例提供的技术方案,通过根据所述文学作品的特征数据将不同语言的文学作品进行匹配,以获得不同语言的文学作品对,还包括:计算不同语言的文学作品的摘要之间的相似度;和/或计算不同语言的文学作品的特定部分的内容之间的相似度;对所述标题之间的映射关系、标题之间的相似度、作者之间的映射关系、作者之间的匹配度、摘要之间的相似度、和/或特定部分的内容之间的相似度进行加权计算,获取包含不同语言的文学作品对,可以利用不同语言的文学作品的特点,结合标题、作者、摘要和文学作品的篇章名称进行文学作品匹配,获得不同语言的文学作品对,从而从不同语言的文学作品高效准确的自动生成高质量语料对。
在本公开的一个实施例中,文学作品的文学作品特征还可以包括摘要(或者称之为对文学作品的详细描述),由于同一种语言的不同文学作品的摘要通常不同,因此,摘要通常可以用于区分同一语言的不同文学作品。因此,计算不同语言的文学作品的摘要之间的相似度可以用于对齐不同语言的文学作品,从而获取包含匹配的文学作品的文学作品对。
在本公开的一个实施例中,可以计算不同语言的文学作品的摘要之间的相似度,例如,以abstract_similarity_score表示。计算文学作品的摘要之间的相似度abstract_similarity_score的方式类似于前述计算标题之间的相似度title_similarity_score的方式。在本公开的一个实施例中,可以根据预设的多种语言的互译词典计算不同语言的文学作品的摘要之间的相似度的第三相似度得分。以下以中英互译概率词典为例说明计算中英文文学作品的摘要之间的相似度的第三相似度得分的方式。首先对中英文摘要分别分词,然后通过预设的中英互译概率词典(其中包括中英文某两个词之间相互翻译的概率,概率数据可以来源于平行语料的词对齐统计数据),计算出两个摘要之间的相似度得分作为第三相似度得分,例如,以abstract_similarity_score_3表示。
在本公开的一个实施例中,在不同语言的文学作品的摘要的相似度进行计算打分时,还可以对根据预设翻译工具对多种语言版本的被译文学作品的摘要的翻译结果以及待匹配文学作品的摘要进行分词和重合度计算,计算不同语言的文学作品的摘要之间的相似度的第四相似度得分。可以利用预设翻译工具对不同语言的文学作品的摘要的翻译结果计算第四相似度得分。预设翻译工具指的是机器翻译工具,其可以是硬件翻译工具、软件翻译工具或软硬件结合的翻译工具。以预设的中英文翻译工具为例,可以将中文文学作品的摘要C通过翻译工具(例如,机器翻译引擎)翻译成英文,记作C_1。对翻译工具结果C_1和英文文学作品的摘要D首先进行英文的分词操作,然后通过计算C_1和D分词结果的编辑距离以及n-gram重合度算出相似度的第四相似度得分,例如,以abstract_similarity_score_4表示。
在本公开的一个实施例中,可以通过对第三相似度得分和第四相似度得分进行加权计算来得到不同语言的文学作品的摘要之间的相似度。参照以上的计算中英文文学作品的摘要之间的相似度的例子,可以对第三相似度得分abstract_similarity_score_3和第四相似度得分abstract_similarity_score_4进行加权计算来获得中英文文学作品的摘要之间的相似度abstract_similarity_score。例如,对第三相似度得分abstract_similarity_score_3设定权重w3,对第四相似度得分abstract_similarity_score_4设定权重w4,则abstract_similarity_score=abstract_similarity_score_3*w3+abstract_similarity_score_4*w4。在另一个示例中,abstract_similarity_score=(abstract_similarity_score_3*w3+abstract_similarity_score_4*w4)/2。应该理解,计算中英文文学作品的摘要之间的相似度的方式不限于以上两个示例,本领域技术人员根据本公开实施例的教导可以采用各种方式对第一相似度得分和第四相似度得分进行加权计算来得到不同语言的文学作品的摘要之间的相似度。
在本公开的一个实施例中,文学作品的文学作品特征还可以包括特定部分的文学作品内容(例如,文学作品的第一篇章、最后篇章、到一段落、或者最后段落等),由于同一种语言的不同文学作品的特定部分的文学作品内容通常不同,因此,特定部分的文学作品内容通常可以用于区分同一语言的不同文学作品。因此,计算不同语言的文学作品的特定部分的内容之间的相似度可以用于对齐不同语言的文学作品,从而获取包含匹配的文学作品的文学作品对。
在本公开的一个实施例中,计算不同语言的文学作品的特定部分的内容之间的相似度的具体方式可以参照上述计算标题之间的相似度的方式和计算摘要之间的相似度的具体方式,其细节在此不作赘述。
在本公开的一个实施例中,当文学作品数据库中的文学作品不包含摘要或者摘要的内容过少时,通过计算不同语言的文学作品的特定部分的内容之间的相似度来进行文学作品匹配,获得不同语言的文学作品对,即,帮助确定不同语言的文学作品是否是匹配的文学作品,是有利的。当然,根据实际应用需要,可以利用计算出的摘要之间的相似度、或者计算出的特定部分的文学作品内容之间的相似度、或者计算出的摘要之间的相似度和计算出的特定部分的文学作品内容之间的相似度二者来进行文学作品匹配。
在本公开的一个实施例中,对标题的映射关系、计算出的标题之间的相似度、作者的映射关系、计算出的作者之间的匹配度、计算出的摘要之间的相似度和/或计算出的特定部分的文学作品内容之间的相似度进行加权计算的方式可以参照上述计算标题之间的相似度的方式和计算摘要之间的相似度的具体方式,其细节在此不作赘述。
在本公开的一个实施例中,对标题的映射关系、计算出的标题之间的相似度、作者的映射关系、计算出的作者之间的匹配度、计算出的摘要之间的相似度和/或计算出的特定部分的文学作品内容之间的相似度进行加权计算以获得不同语言的文学作品作为文学作品对中的匹配的文学作品得分,根据匹配的文学作品得分超过预设匹配的文学作品得分阈值来确定不同语言的文学作品是匹配的文学作品,从而可以获取包含不同语言的文学作品对。在本公开的一个实施例中,标题的映射关系、计算出的标题之间的相似度、作者的映射关系、计算出的作者之间的匹配度、计算出的摘要之间的相似度和计算出的特定部分的文学作品内容之间的相似度都是用于确定不同语言的文学作品是否是匹配的文学作品的指标。在本公开的实施例中,采用越多的指标来确定不同语言的文学作品是否是匹配的文学作品,则确定的结果越准确。
在本公开的一个实施例中,当根据前述各种方式确定了匹配的文学作品并且获取了包含不同语言的文学作品对时,可以更新文学作品对中的不同语言的文学作品的标题的映射关系以及文学作品对中的不同语言的文学作品的作者的映射关系。即,可以将所获取的包含不同语言的文学作品对中的文学作品的标题的映射关系更新到“标题对齐数据”中,并且可以将所获取的包含不同语言的文学作品对中的文学作品的作者的映射关系更新到“作者对齐数据”中。因此,对于所获取的包含不同语言的文学作品对,可以闭环更新“标题对齐数据”和“作者对齐数据”。重复前述的文学作品匹配(获取包含不同语言的文学作品对)流程,直到无法获取到新的包含不同语言的文学作品对。
在本公开的一个实施例中,步骤S130包括:根据所述文学作品的篇章内容和篇章名称对文学作品对中的不同语言的文学作品的篇章进行对齐;从文学作品中的已对齐的篇章中生成包含不同语言的对应句的句组;根据预设句组筛选规则,基于句组中的对应句之间的长度比和/或相似度对所述句组进行筛选;根据筛选出的符合句组筛选规则的句组生成语料对。
根据本公开实施例提供的技术方案,通过利用所述不同语言的文学作品对,获得不同语言的语料对,包括:根据所述文学作品的篇章内容和篇章名称对文学作品对中的不同语言的文学作品的篇章进行对齐;从文学作品中的已对齐的篇章中生成包含不同语言的对应句的句组;根据预设句组筛选规则,基于句组中的对应句之间的长度比和/或相似度对所述句组进行筛选;根据筛选出的符合句组筛选规则的句组生成语料对,可以利用不同语言的文学作品的特点,结合标题、作者、摘要和文学作品的篇章名称进行文学作品匹配和篇章对齐,从而从不同语言的文学作品高效准确的自动生成高质量语料对。
在本公开的一个实施例中,文学作品的篇章内容指的是文学作品的文学作品内容在每一篇章部分内的内容,每一篇章内容之前具有篇章名称已将当前篇章内容与其他篇章内容分开。以下以包括中英文匹配的文学作品的文学作品对为例来说明如何对文学作品对中的各种语言版本的匹配的文学作品的文学作品内容进行对齐以生成语料对。
在本公开的一个实施例中,设定文学作品对包括平行的中文文学作品A和英文文学作品B,并且设定中文文学作品A对应的全部篇章分别是A_1、A_2…A_m,设定英文文学作品B对应的全部篇章分别是B_1、B_2…B_n,其中,m和n为正整数。对中文文学作品A中的m个篇章和英文文学作品B中的n个篇章进行对齐。
在本公开的一个实施例中,计算中文文学作品A中的一个篇章A_i和英文文学作品B中的一个篇章B_j之间的相似度,其中,i和j为正整数。具体计算方法是:首先对中文篇章A_i和英文篇章B_j进行分词操作,将中文篇章A_i的中文分词结果记为A_token_i,将英文篇章B_j的英文分词结果记为B_token_j。其后,根据中英双语词典将中文分词结果A_token_i中每个词翻译为英文,记为中文分词结果英译文A_token_i_translate。统计中文分词结果英译文A_token_i_translate和英文分词结果B_token_j中相同n-gram的数量。由此统计出中文篇章A_i和英文篇章B_j之间相同的n-gram的数量。这样,就可以统计出中文篇章A_i和英文文学作品B中的全部n个篇章B_1、B_2…B_n构成的篇章对的相同的n-gram的数量。从这n个篇章对筛选出相同的n-gram的数量最高的(即,篇章内容相似度最高的)前k个篇章对,其中k为正整数,例如,4(n≥4),即,相同的n-gram的数量最高的前4个篇章对。即,按照相同的n-gram的数量从高到低的顺序对这n个篇章对进行排序,筛选出前个篇章对作为高相似度篇章对。
在本公开的一个实施例中,可能与中文篇章A_i对齐的前k(例如,4)个潜在待匹配英文篇章被分别记为B_k1、B_k2、B_k3和B_k4。接下来,从这4个的筛选结果中进行篇章号距离打分,即,针对包括中文篇章A_i与待匹配英文篇章B_k1的篇章对、包括中文篇章A_i与待匹配英文篇章B_k2的篇章对、包括中文篇章A_i与待匹配英文篇章B_k3的篇章对和包括中文篇章A_i与待匹配英文篇章B_k4的篇章对,分别进行篇章号距离打分。篇章号距离打分指的是,在每个篇章有对应的篇章号的情况下,中文篇章号的表示形如“章节一”,“第1章”等,英文的篇章号形如“Chapter1”,“Chapter one”等。首先需要对篇章号进行归一化处理,将包含中文、英文、罗马数字等数字信息的篇章号统一到阿拉伯数字,之后求中文篇章号与英文篇章号的差的绝对值。例如,中文篇章号“章节一”与英文篇章号“Chapter 1”的差的绝对值是0。中文篇章号“第十五章”与英文篇章号“Chapter 12”的差的绝对值是3。
在本公开的一个实施例中,篇章名称包括篇章号和/或篇章标名。在本公开的实施例中,篇章标名指的是位于篇章号之后与篇章号一起构成篇章名称或单独存在构成篇章名称的词、词组或句子。例如,中文篇章名称可以仅包括“章节一”、“第1章”等篇章号;也可以仅包括“故事的开始”、“牛顿第一定律”等篇章标名;也可以既包括篇章号又包括篇章标名,例如“第一章故事的开始”、“第1章牛顿第一定律”等。例如,英文篇章名称可以仅包括“Chapter 1”,“Chapter one”等篇章号;也可以仅包括“Begining of the Story”、“Newton's First Law”等篇章标名;也可以既包括篇章号又包括篇章标名,例如“Chapter1Begining of the Story”、“Chapter one Newton's First Law”等。
在本公开的一个实施例中,对高相似度篇章对进行篇章标名相似度进行计算。例如,基于前述示例,对包括中文篇章A_i与待匹配英文篇章B_k1的篇章对、包括中文篇章A_i与待匹配英文篇章B_k2的篇章对、包括中文篇章A_i与待匹配英文篇章B_k3的篇章对和包括中文篇章A_i与目标英文篇章B_k4的篇章对,进行篇章标名相似度的计算以对篇章标名相似度打分。进行篇章标名相似度的计算的方式可以参照上述计算标题之间的相似度的方式和计算摘要之间的相似度的具体方式,其细节在此不作赘述。
在本公开的一个实施例中,可以通过对中文篇章号与英文篇章号的差的绝对值和/或篇章标名相似度进行加权计算来获取高相似度篇章对中的每一篇章对的篇章名称的相似度,从而从高相似度篇章对中筛选出具有最高篇章名称相似度的篇章对作为对齐的篇章。
在本公开的一个实施例中,可以从对齐的篇章中进行句组的生成。参照以上文学作品对包括平行的中文文学作品A和英文文学作品B的示例,可以从从对齐的篇章中生成句对。在本公开的一个实施例中,可以根据句对的长度比和/或句对的相似度进行句对筛选得到最终的语料。例如,句对的相似度的计算方式可以采用基于互译概率词典翻译并计算,其具体计算方式可以从前述讨论中获取。例如,句对的相似度的计算方式可以参照上述计算标题之间的相似度的方式和计算摘要之间的相似度的具体方式,其细节在此不作赘述。句对的长度比指的是句组中的对应句之间的长度比,例如,中英文句对中,中文句子的长度与英文句子的长度比应该在一定阈值范围内,超出该阈值范围,则该中英文句对中的中文句与英文句不是对齐的句。
在本公开的一个实施例中,根据所述文学作品的篇章内容和篇章名称对文学作品对中的不同语言的文学作品的篇章进行对齐,包括:对文学作品对中的不同语言的篇章内容进行分词;根据预设的多种语言的互译词典翻译被译文学作品的篇章中的词以统计被译文学作品的篇章与待匹配文学作品的篇章中相同的n-gram的数量;对被译文学作品的篇章与待匹配文学作品的篇章所组成的篇章组按照具有相同的n-gram的数量从高到低排序,并从排序的篇章组中筛选出前k个篇章组作为高相似度篇章组,其中,k为正整数;计算所述高相似度篇章组中的不同语言的篇章名称的相似度;从高相似度篇章组中筛选出具有最高相似度的篇章名称的篇章组作为对齐的篇章。
根据本公开实施例提供的技术方案,通过根据所述文学作品的篇章内容和篇章名称对文学作品对中的不同语言的文学作品的篇章进行对齐,包括:对文学作品对中的不同语言的篇章内容进行分词;根据预设的多种语言的互译词典翻译被译文学作品的篇章中的词以统计被译文学作品的篇章与待匹配文学作品的篇章中相同的n-gram的数量;对被译文学作品的篇章与待匹配文学作品的篇章所组成的篇章组按照具有相同的n-gram的数量从高到低排序,并从排序的篇章组中筛选出前k个篇章组作为高相似度篇章组,其中,k为正整数;计算所述高相似度篇章组中的不同语言的篇章名称的相似度;从高相似度篇章组中筛选出具有最高相似度的篇章名称的篇章组作为对齐的篇章,可以利用不同语言的文学作品的特点,结合标题、作者、摘要和文学作品的篇章名称进行文学作品匹配和篇章对齐,从而从不同语言的文学作品高效准确的自动生成高质量语料对。
在本公开的一个实施例中,计算所述高相似度篇章组中的不同语言的篇章名称的相似度,包括:对所述高相似度篇章组中不同语言的篇章名称中的篇章号进行归一化以计算不同语言的篇章号的差的绝对值;和/或计算所述高相似度篇章组中不同语言的篇章名称中的篇章标名之间的相似度;根据所述不同语言的篇章号的差的绝对值和/或不同语言的篇章名称中的篇章标名之间的相似度计算所述高相似度篇章组中的不同语言的篇章名称的相似度。
根据本公开实施例提供的技术方案,通过计算所述高相似度篇章组中的不同语言的篇章名称的相似度,包括:对所述高相似度篇章组中不同语言的篇章名称中的篇章号进行归一化以计算不同语言的篇章号的差的绝对值;和/或计算所述高相似度篇章组中不同语言的篇章名称中的篇章标名之间的相似度;根据所述不同语言的篇章号的差的绝对值和/或不同语言的篇章名称中的篇章标名之间的相似度计算所述高相似度篇章组中的不同语言的篇章名称的相似度,可以利用不同语言的文学作品的特点,结合标题、作者、摘要和文学作品的篇章名称进行文学作品匹配和篇章对齐,从而从不同语言的文学作品高效准确的自动生成高质量语料对。
以上通过中英双语文学作品的示例讨论了文学作品的对齐、篇章的对齐和句对的生成,但是应该理解,可以将中英双语文学作品的示例应用于三种或更不同语言的文学作品的对齐、篇章的对齐和句组的生成。例如,可以在执行语料生成方法的每一步骤时针对三种或更不同语言的文学作品进行相应的处理。例如,可以在计算各个值时将针对三种语言的文学作品的标题相似度时,将三种语言的文学作品分为三个文学作品对,针对每个文学作品对计算标题相似度并且通过计算这三个文学作品对的标题相似度的和的平均值来计算三种语言版本的文学作品的标题之间的相似度。又例如,可以将三种或更不同语言的文学作品拆分成多个双语文学作品对,对各个每个双语文学作品对分别进行文学作品的对齐、篇章的对齐和句对的生成,最终生成包含三种或更多种语言的句组,从而得到最终的多语言语料。
应该注意,本公开的实施例针对从不同语言的文学作品进行语料生产采用了诸如标题相似度、作者相似度、摘要相似度、特定部分的内容相似度以及综合加权打分等一系列手段实现从文学作品匹配、篇章对齐、句对生成、语料生成的一整套的方案,从而从不同语言的文学作品高效准确的自动生成高质量语料对。
以下参照图2描述根据本公开另一实施方式的语料生成装置。
图2示出根据本公开一实施方式的语料生成装置的结构框图。如图2所示,语料生成装置200包括获取模块210、匹配220和获得模块230。
获取模块210被配置为获取不同语言的文学作品以及文学作品的特征数据。
匹配模块220被配置为根据所述文学作品的特征数据将不同语言的文学作品进行匹配,以获得不同语言的文学作品对。
获得模块230被配置为利用所述不同语言的文学作品对,获得不同语言的语料对。
根据本公开实施例提供的技术方案,通过获取模块,被配置为获取不同语言的文学作品以及文学作品的特征数据;匹配模块,被配置为根据所述文学作品的特征数据将不同语言的文学作品进行匹配,以获得不同语言的文学作品对;获得模块,被配置为利用所述不同语言的文学作品对,获得不同语言的语料对,可以利用不同语言的文学作品的特点,结合标题、作者、摘要和文学作品的篇章名称进行文学作品匹配,获得不同语言的文学作品对,从而从不同语言的文学作品高效准确的自动生成高质量语料对。
本领域技术人员可以理解,参照图2描述的技术方案的可以与参照图1描述的实施例结合,从而具备参照图1描述的实施例所实现的技术效果。具体内容可以参照以上根据图1进行的描述,其具体内容在此不再赘述。
以下参照图3描述利用根据本公开一实施方式的语料生成方法利用双语言版本小说生成语料对的一个示例性应用方案。
图3示出利用根据本公开一实施方式的语料生成方法利用双语言版本小说生成语料对的一个示例性应用方案的示意图。
1.获取到的小说数据可以包含小说名、作者名、篇章号、篇章名、篇章的文学作品内容。当前获取的小说包含中文和英文两个语言版本。可以把两种语言的小说分别存储在“中文小说”库以及“英文小说”库这两个数据库中。
2.通过互联网可以获取部分小说的中英文的标题映射关系(比如小说《西游记》与英文名《Journey to the West》的映射关系)以及作者名的中英文映射关系(比如作者“吴承恩”和“WU Chengen”的映射关系),并且分别记录在图3中的“小说名对齐数据”和“作者名对齐数据”中。“小说名对齐数据”和“作者名对齐数据”整体构成小说对齐数据。
3.从“中文小说”库和“英文小说”库中各挑选小说A(中文)和小说B(英文)进行平行小说的对齐(文学作品匹配),细节如下:
3.1中英小说名对匹配得分:如果A和B的小说名对出现在“小说名对齐数据”中,则获得小说名匹配得分,这个分值是可配置的值,比如1,记作title_match_score。
3.2小说名对相似度计算得分:如果A和B的小说名没有出现在“小说名对齐数据”中,则对小说名进行相似度的计算打分。这里的相似度的计算打分来源于两种得分:第一得分是基于词互译概率的得分,具体做法是首先对中英小说名分别分词,然后通过预设的互译概率词典(即中英某两个词之间翻译的概率,数据来源于平行语料的词对齐统计数据),算出两个小说名之间的相似得分title_similarity_score_1。第二得分方式来源于机翻结果,具体做法是将A的名字通过机翻引擎翻译成英文,记作A_1,对于A_1和B首先进行英文的分词操作,然后通过计算A_1和B分词结果的编辑距离以及n-gram重合度算出相似度的第二的得分title_similarity_score_2。设定title_similarity_score_1和title_similarity_score_2的权重,得到小说名相似度的得分title_similarity_score。
3.3中英作者名对匹配得分:如果A和B的作者名对出现在“作者名对齐数据”中,则获得作者名匹配得分,记作author_match_score。
3.4中文作者名转拼音与英文作者名匹配得分:有些作者的英文名是直接取自其中文名的拼音,所以如果A和B的小说作者名对不在3.3中出现(即,不在“作者名对齐数据”中),则对于该小说的中文作者名进行姓名的拼音获取,如果针对A获取的拼音和B的作者名一致,则获得中文作者名转拼音匹配得分,记作author_pinyin_match_score。
3.5中英小说摘要相似度计算得分:对于A和B的小说信息,通常可以获取到小说的摘要(或者称之为描述信息),通过使用3.2中类似于小说名对的相似度计算方法可以获取到小说摘要相似度的得分,记作abstract_similarity_score。
3.6中英小说第一篇章相似度计算得分:由于部分小说会有详描缺失的情况,所以可以通过小说第一篇章的相似度计算来更进一步帮助确定小说是否是对齐的。具体计算方式参照3.2中小说名对相似度的计算方法。小说第一篇章的相似度计算得分记作first_chapter_similarity_score。
3.7通过加权:“中英小说名对匹配得分”、“小说名对相似度计算得分”、“中英作者名对匹配得分”、“中文作者名转拼音进行与英文名匹配得分”、“中英小说摘要相似度计算得分”和“中英小说第一篇章相似度计算得分”算出A和B是平行小说的总分,通过对比阈值确定A和B是否是平行小说,即,匹配的文学作品。
4.对于第3步得到的对齐的小说,闭环更新“小说名对齐数据”和“作者名对齐数据”。重复第3步的小说对齐流程,直到没有新的小说对生成。
5.根据第3步得出的平行小说对,开始进行小说篇章的对齐,具体做法如下:
5.1设定A和B代表着两个平行的小说,其中A是中文版本,B是英文版本,将A和B对应的所有篇章数据放在一个计算桶中,设定A对应的所有篇章分别是A_1、A_2…A_m,B对应的所有篇章分别是B_1、B_2…B_n。对m篇A中的篇章和n篇B中的篇章进行对齐。
5.2计算A对应的一个篇章A_i和B对应的一个篇章B_j之间的相似度,具体做法是:首先对A_i和B_j进行分词操作,记为A_token_i和B_token_j。然后,根据双语词典将A_token_i中每个词(中文)翻译到英文,记为A_token_i_translate,其后统计A_token_i_translate和B_token_j中相同n-gram的数目(这里n亦是参数,比如设定为2)。这样统计出A_i和B_j之间的相同n-gram的数目。这样就可以统计出A_i和B_1,B_2…B_n所有的篇章对中相同n-gram的数目。基于相同n-gram的数目挑选出相似度最高的前k篇章对(k为参数,比如设为4)。
5.3每个篇章A_i的前k(假设k设置为4)潜在待对齐篇章记为B_k1、B_k2、B_k3、B_k4。接下来从前4的结果中再进行篇章号距离打分:每个篇章会有对应的篇章号,中文篇章号的表示形如“章节一”、“第1章”等,英文的篇章号形如“Chapter 1”、“Chapter one”等。首先需要进行归一化处理,将无论中文、英文、罗马数字等统一到阿拉伯数据,然后求中英篇章号的差的绝对值。
5.4对A_i对应的前4篇章对进行篇章标名相似度的打分,这里的得分计算方式参考3.2标题相似度的计算方式。
5.5综合5.3,5.4的打分,通过加权后可以得出每组篇章对的最后得分,挑选出最高值。
6.从对齐的篇章中进行句对生产。
7.根据句对的长度比、句对的相似度打分(例如,基于互译概率词典)进行句对过滤,得到最终双语小说语料。
以下参照图4描述根据本公开另一实施方式的语料生成方法。
图4示出根据本公开另一实施方式的语料生成方法的流程图。如图4所示,语料生成方法包括以下步骤S410、S420、S430、S440、S450、S460和S470:
在步骤S410中,获取第一语言文学作品、包含第一语言文学作品的标题、作者、摘要和篇章名称的第一语言文学作品特征数据、第二语言文学作品以及包含第二语言文学作品的标题、作者、摘要和篇章名称的第二语言文学作品特征数据。
在步骤S420中,获取第一语言文学作品的标题与第二语言文学作品的标题之间的映射关系以及作者之间的映射关系。
在步骤S430中,计算第一语言文学作品与第二语言文学作品的标题之间的相似度、作者之间的匹配度、摘要之间的相似度和特定部分的内容之间的相似度。
在步骤S440中,对第一语言文学作品与第二语言文学作品的标题之间的映射关系、作者之间的映射关系、标题之间的相似度、作者之间的匹配度、摘要之间的相似度和特定部分的内容之间的相似度进行加权计算,获取包含第一语言文学作品和第二语言文学作品的文学作品对。
在步骤S450中,根据文学作品对中的第一语言文学作品和第二语言文学作品中的篇章内容以及篇章名称对第一语言文学作品和第二语言文学作品中的篇章进行对齐。
在步骤S460中,从对齐的篇章获取包含相互对应的第一语言的句与第二语言的句的句对。
在步骤S470中,根据预设语料筛选规则对句对进行筛选以生成语料对。
根据本公开实施例提供的技术方案,通过获取第一语言文学作品、包含第一语言文学作品的标题、作者、摘要和篇章名称的第一语言文学作品特征数据、第二语言文学作品以及包含第二语言文学作品的标题、作者、摘要和篇章名称的第二语言文学作品特征数据;获取第一语言文学作品的标题与第二语言文学作品的标题之间的映射关系以及作者之间的映射关系;计算第一语言文学作品与第二语言文学作品的标题之间的相似度、作者之间的匹配度、摘要之间的相似度和特定部分的内容之间的相似度;对第一语言文学作品与第二语言文学作品的标题之间的映射关系、作者之间的映射关系、标题之间的相似度、作者之间的匹配度、摘要之间的相似度和特定部分的内容之间的相似度进行加权计算,获取包含第一语言文学作品和第二语言文学作品的文学作品对;根据文学作品对中的第一语言文学作品和第二语言文学作品中的篇章内容以及篇章名称对第一语言文学作品和第二语言文学作品中的篇章进行对齐;从对齐的篇章获取包含相互对应的第一语言的句与第二语言的句的句对;根据预设语料筛选规则对句对进行筛选以生成语料对,可以利用两种语言文学作品的特点,结合标题、作者、摘要和文学作品的篇章名称进行文学作品匹配和篇章对齐,从而从两种语言文学作品高效准确的自动生成高质量语料对。
在本公开的一个实施例中,计算第一语言文学作品与第二语言文学作品的标题之间的相似度,包括:根据预设的第一语言与第二语言的互译词典计算第一语言文学作品的标题和第二语言文学作品的标题之间的相似度的第一相似度得分;根据预设翻译工具对第一语言文学作品的标题进行翻译,得到翻译结果;对翻译结果以及待匹配的第二语言文学作品的标题进行分词和重合度计算,计算第一语言文学作品的标题和第二语言文学作品的标题之间的相似度的第二相似度得分;对第一相似度得分和第二相似度得分进行加权计算,以得到第一语言文学作品的标题和第二语言文学作品的标题之间的相似度。
根据本公开实施例提供的技术方案,通过计算第一语言文学作品与第二语言文学作品的标题之间的相似度,包括:根据预设的第一语言与第二语言的互译词典计算第一语言文学作品的标题和第二语言文学作品的标题之间的相似度的第一相似度得分;根据预设翻译工具对第一语言文学作品的标题进行翻译,得到翻译结果;对翻译结果以及待匹配的第二语言文学作品的标题进行分词和重合度计算,计算第一语言文学作品的标题和第二语言文学作品的标题之间的相似度的第二相似度得分;对第一相似度得分和第二相似度得分进行加权计算,以得到第一语言文学作品的标题和第二语言文学作品的标题之间的相似度,可以利用两种语言文学作品的特点,结合标题、作者、摘要和文学作品的篇章名称进行文学作品匹配和篇章对齐,从而从两种语言文学作品高效准确的自动生成高质量语料对。
在本公开的一个实施例中,计算第一语言文学作品与第二语言文学作品的作者之间的匹配度,包括:根据预设注音方案对第一语言文学作品的作者进行音译以获得音译作者名称;根据音译作者名称与待匹配的第二语言文学作品的作者名称是否一致计算第一语言文学作品与第二语言文学作品的作者之间的匹配度。
根据本公开实施例提供的技术方案,通过计算第一语言文学作品与第二语言文学作品的作者之间的匹配度,包括:根据预设注音方案对第一语言文学作品的作者进行音译以获得音译作者名称;根据音译作者名称与待匹配的第二语言文学作品的作者名称是否一致计算第一语言文学作品与第二语言文学作品的作者之间的匹配度,可以利用两种语言文学作品的特点,结合标题、作者、摘要和文学作品的篇章名称进行文学作品匹配和篇章对齐,从而从两种语言文学作品高效准确的自动生成高质量语料对。
在本公开的一个实施例中,根据预设语料筛选规则对句对进行筛选以生成语料对,包括:根据预设句对筛选规则,基于句对中的对应句之间的长度比和/或相似度对句对进行筛选;根据筛选出的符合句对筛选规则的句对生成语料对。
根据本公开实施例提供的技术方案,通过根据预设语料筛选规则对句对进行筛选以生成语料对,包括:根据预设句对筛选规则,基于句对中的对应句之间的长度比和/或相似度对句对进行筛选;根据筛选出的符合句对筛选规则的句对生成语料对,可以利用两种语言文学作品的特点,结合标题、作者、摘要和文学作品的篇章名称进行文学作品匹配和篇章对齐,从而从两种语言文学作品高效准确的自动生成高质量语料对。
在本公开的一个实施例中,根据文学作品对中的第一语言文学作品和第二语言文学作品中的篇章内容以及篇章名称对第一语言文学作品和第二语言文学作品中的篇章进行对齐,包括:对文学作品对中的第一语言文学作品和第二语言文学作品的篇章内容进行分词;根据预设的第一语言与第二语言的互译词典翻译第一语言文学作品的篇章中的词以统计第一语言文学作品的篇章与第二语言文学作品的篇章中相同的n-gram的数量;对第一语言文学作品的篇章与第二语言文学作品的篇章所组成的篇章对按照具有相同的n-gram的数量从高到低排序,并从排序的篇章对中筛选出前k个篇章对作为高相似度篇章对,其中,k为正整数;计算高相似度篇章对中的第一语言的篇章名称与第二语言的篇章名称的相似度;从高相似度篇章对中筛选出具有最高相似度的篇章名称的篇章对作为对齐的篇章。
根据本公开实施例提供的技术方案,通过根据文学作品对中的第一语言文学作品和第二语言文学作品中的篇章内容以及篇章名称对第一语言文学作品和第二语言文学作品中的篇章进行对齐,包括:对文学作品对中的第一语言文学作品和第二语言文学作品的篇章内容进行分词;根据预设的第一语言与第二语言的互译词典翻译第一语言文学作品的篇章中的词以统计第一语言文学作品的篇章与第二语言文学作品的篇章中相同的n-gram的数量;对第一语言文学作品的篇章与第二语言文学作品的篇章所组成的篇章对按照具有相同的n-gram的数量从高到低排序,并从排序的篇章对中筛选出前k个篇章对作为高相似度篇章对,其中,k为正整数;计算高相似度篇章对中的第一语言的篇章名称与第二语言的篇章名称的相似度;从高相似度篇章对中筛选出具有最高相似度的篇章名称的篇章对作为对齐的篇章,可以利用两种语言文学作品的特点,结合标题、作者、摘要和文学作品的篇章名称进行文学作品匹配和篇章对齐,从而从两种语言文学作品高效准确的自动生成高质量语料对。
在本公开的一个实施例中,计算高相似度篇章对中的第一语言的篇章名称与第二语言的篇章名称的相似度,包括:对高相似度篇章对中第一语言的篇章名称中的篇章号和第二语言的篇章名称中的篇章号进行归一化以计算第一语言的篇章名称中的篇章号和第二语言的篇章名称中的篇章号的差的绝对值;和/或计算高相似度篇章对中第一语言的篇章名称中的篇章标名与第二语言的篇章名称中的篇章标名之间的相似度;根据第一语言的篇章名称中的篇章号和第二语言的篇章名称中的篇章号的差的绝对值和/或第一语言的篇章名称中的篇章标名与第二语言的篇章名称中的篇章标名之间的相似度,计算高相似度篇章对中的第一语言的篇章名称与第二语言的篇章名称的相似度。
根据本公开实施例提供的技术方案,通过计算高相似度篇章对中的第一语言的篇章名称与第二语言的篇章名称的相似度,包括:对高相似度篇章对中第一语言的篇章名称中的篇章号和第二语言的篇章名称中的篇章号进行归一化以计算第一语言的篇章名称中的篇章号和第二语言的篇章名称中的篇章号的差的绝对值;和/或计算高相似度篇章对中第一语言的篇章名称中的篇章标名与第二语言的篇章名称中的篇章标名之间的相似度;根据第一语言的篇章名称中的篇章号和第二语言的篇章名称中的篇章号的差的绝对值和/或第一语言的篇章名称中的篇章标名与第二语言的篇章名称中的篇章标名之间的相似度,计算高相似度篇章对中的第一语言的篇章名称与所述第二语言的篇章名称的相似度,可以利用两种语言文学作品的特点,结合标题、作者、摘要和文学作品的篇章名称进行文学作品匹配和篇章对齐,从而从两种语言文学作品高效准确的自动生成高质量语料对。
本领域技术人员可以理解,参照图4描述的技术方案的可以与参照图1至图3描述的实施例结合,从而具备参照图1至图3描述的实施例所实现的技术效果。具体内容可以参照以上根据图1至图3进行的描述,其具体内容在此不再赘述。
以下参照图5描述根据本公开另一实施方式的语料生成装置。
图5示出根据本公开另一实施方式的语料生成装置500的结构框图。如图5所示,语料生成装置500包括第一获取模块510、第二获取模块520、第一计算模块530、第二计算模块540、对齐模块550、第三获取模块560和生成模块570。
第一获取模块510被配置为获取第一语言文学作品、包含第一语言文学作品的标题、作者、摘要和篇章名称的第一语言文学作品特征数据、第二语言文学作品以及包含第二语言文学作品的标题、作者、摘要和篇章名称的第二语言文学作品特征数据。
第二获取模块520被配置获取第一语言文学作品的标题与第二语言文学作品的标题之间的映射关系以及作者之间的映射关系。
第一计算模块530被配置为计算第一语言文学作品与第二语言文学作品的标题之间的相似度、作者之间的匹配度、摘要之间的相似度和特定部分的内容之间的相似度。
第二计算模块540被配置为对第一语言文学作品与第二语言文学作品的标题之间的映射关系、作者之间的映射关系、标题之间的相似度、作者之间的匹配度、摘要之间的相似度和特定部分的内容之间的相似度进行加权计算,获取包含第一语言文学作品和第二语言文学作品的文学作品对。
对齐模块550被配置为根据文学作品对中的第一语言文学作品和第二语言文学作品中的篇章内容以及篇章名称对第一语言文学作品和第二语言文学作品中的篇章进行对齐。
第三获取模块560被配置为从对齐的篇章获取包含相互对应的第一语言的句与第二语言的句的句对。
生成模块570被配置为根据预设语料筛选规则对句对进行筛选以生成语料对。
根据本公开实施例提供的技术方案,通过第一获取模块,被配置为获取第一语言文学作品、包含所述第一语言文学作品的标题、作者、摘要和篇章名称的第一语言文学作品特征数据、第二语言文学作品以及包含所述第二语言文学作品的标题、作者、摘要和篇章名称的第二语言文学作品特征数据;第二获取模块,被配置获取所述第一语言文学作品的标题与所述第二语言文学作品的标题之间的映射关系以及作者之间的映射关系;第一计算模块,被配置为计算所述第一语言文学作品与所述第二语言文学作品的标题之间的相似度、作者之间的匹配度、摘要之间的相似度和特定部分的内容之间的相似度;第二计算模块,被配置为对所述第一语言文学作品与所述第二语言文学作品的标题之间的映射关系、作者之间的映射关系、标题之间的相似度、作者之间的匹配度、摘要之间的相似度和特定部分的内容之间的相似度进行加权计算,获取包含第一语言文学作品和第二语言文学作品的文学作品对;对齐模块,被配置为根据文学作品对中的第一语言文学作品和第二语言文学作品中的篇章内容以及篇章名称对第一语言文学作品和第二语言文学作品中的篇章进行对齐;第三获取模块,被配置为从对齐的篇章获取包含相互对应的第一语言的句与第二语言的句的句对;生成模块,被配置为根据预设语料筛选规则对所述句对进行筛选以生成语料对,可以利用两种语言文学作品的特点,结合标题、作者、摘要和文学作品的篇章名称进行文学作品匹配和篇章对齐,从而从两种语言文学作品高效准确的自动生成高质量语料对。
本领域技术人员可以理解,参照图5描述的技术方案的可以与参照图1至图4描述的实施例结合,从而具备参照图1至图4描述的实施例所实现的技术效果。具体内容可以参照以上根据图1至图4进行的描述,其具体内容在此不再赘述。
前述实施例描述了语料生成装置的内部功能和结构,在一个可能的设计中,语料生成装置的结构可实现为电子设备,如图6中所示,该电子设备600可以包括处理器601以及存储器602。
所述存储器602用于存储支持语电子设备执行上述任一实施例中的语料生成方法或代码生成方法的程序,所述处理器601被配置为用于执行所述存储器602中存储的程序。
在本公开的一个实施例中,所述存储器602用于存储一条或多条计算机指令,其中,所述一条或多条计算机指令被所述处理器601执行以实现以下步骤:
获取不同语言的文学作品以及文学作品的特征数据;
根据所述文学作品的特征数据将不同语言的文学作品进行匹配,以获得不同语言的文学作品对;
利用所述不同语言的文学作品对,获得不同语言的语料对。
在本公开的一个实施例中,所述文学作品的特征数据包括:文学作品的标题、作者、摘要、篇章名称中的一种或多种。
在本公开的一个实施例中,所述根据所述文学作品的特征数据将不同语言的文学作品进行匹配,以获得不同语言的文学作品对,包括:
获得不同语言的文学作品的标题之间的映射关系;
获得不同语言的文学作品的作者之间的映射关系;
根据所述标题之间的映射关系以及所述作者之间的映射关系将不同语言的文学作品进行匹配。
在本公开的一个实施例中,所述方法还包括:
计算不同语言的文学作品的标题之间的相似度;
计算不同语言的文学作品的作者之间的匹配度;
通过预设方式对所述标题之间的映射关系、所述标题之间的相似度、所述作者之间的映射关系和所述作者之间的匹配度进行加权计算,得到不同语言的文学作品对。
在本公开的一个实施例中,所述计算不同语言的文学作品的标题之间的相似度,包括:
根据预设的多种语言的互译词典计算不同语言的文学作品的标题之间的相似度的第一相似度得分;
根据预设翻译工具对不同语言的文学作品的标题进行翻译,得到翻译结果;
对翻译结果以及待匹配的文学作品的标题进行分词和重合度计算,计算不同语言的文学作品的标题之间的相似度的第二相似度得分;
对所述第一相似度得分和所述第二相似度得分进行加权计算,以得到不同语言的文学作品的标题之间的相似度。
在本公开的一个实施例中,所述计算不同语言的文学作品的作者之间的匹配度,包括:
根据预设注音方案对不同语言的文学作品的作者进行音译以获得音译作者名称;
根据所述音译作者名称与待匹配文学作品的作者名称是否一致计算不同语言的文学作品的作者之间的匹配度。
在本公开的一个实施例中,所述方法还包括:
计算不同语言的文学作品的摘要之间的相似度;和/或
计算不同语言的文学作品的特定部分的内容之间的相似度;
对所述标题之间的映射关系、标题之间的相似度、作者之间的映射关系、作者之间的匹配度、摘要之间的相似度、和/或特定部分的内容之间的相似度进行加权计算,获取包含不同语言的文学作品对。
在本公开的一个实施例中,所述利用所述不同语言的文学作品对,获得不同语言的语料对,包括:
根据所述文学作品的篇章内容和篇章名称对文学作品对中的不同语言的文学作品的篇章进行对齐;
从文学作品中的已对齐的篇章中生成包含不同语言的对应句的句组;
根据预设句组筛选规则,基于句组中的对应句之间的长度比和/或相似度对所述句组进行筛选;
根据筛选出的符合句组筛选规则的句组生成语料对。
在本公开的一个实施例中,所述根据所述文学作品的篇章内容和篇章名称对文学作品对中的不同语言的文学作品的篇章进行对齐,包括:
对文学作品对中的不同语言的篇章内容进行分词;
根据预设的多种语言的互译词典翻译被译文学作品的篇章中的词以统计被译文学作品的篇章与待匹配文学作品的篇章中相同的n-gram的数量;
对被译文学作品的篇章与待匹配文学作品的篇章所组成的篇章组按照具有相同的n-gram的数量从高到低排序,并从所述排序的篇章组中筛选出前k个篇章组作为高相似度篇章组,其中,k为正整数;
计算所述高相似度篇章组中的不同语言的篇章名称的相似度;
从所述高相似度篇章组中筛选出具有最高相似度的篇章名称的篇章组作为对齐的篇章。
在本公开的一个实施例中,所述计算所述高相似度篇章组中的不同语言的篇章名称的相似度,包括:
对所述高相似度篇章组中不同语言的篇章名称中的篇章号进行归一化以计算不同语言的篇章号的差的绝对值;和/或
计算所述高相似度篇章组中不同语言的篇章名称中的篇章标名之间的相似度;
根据所述不同语言的篇章号的差的绝对值和/或不同语言的篇章名称中的篇章标名之间的相似度计算所述高相似度篇章组中的不同语言的篇章名称的相似度。
在本公开的一个实施例中,所述存储器602用于存储一条或多条计算机指令,其中,所述一条或多条计算机指令还被所述处理器601执行以实现以下步骤:
获取第一语言文学作品、包含所述第一语言文学作品的标题、作者、摘要和篇章名称的第一语言文学作品特征数据、第二语言文学作品以及包含所述第二语言文学作品的标题、作者、摘要和篇章名称的第二语言文学作品特征数据;
获取所述第一语言文学作品的标题与所述第二语言文学作品的标题之间的映射关系以及作者之间的映射关系;
计算所述第一语言文学作品与所述第二语言文学作品的标题之间的相似度、作者之间的匹配度、摘要之间的相似度和特定部分的内容之间的相似度;
对所述第一语言文学作品与所述第二语言文学作品的标题之间的映射关系、作者之间的映射关系、标题之间的相似度、作者之间的匹配度、摘要之间的相似度和特定部分的内容之间的相似度进行加权计算,获取包含第一语言文学作品和第二语言文学作品的文学作品对;
根据文学作品对中的第一语言文学作品和第二语言文学作品中的篇章内容以及篇章名称对第一语言文学作品和第二语言文学作品中的篇章进行对齐;
从对齐的篇章获取包含相互对应的第一语言的句与第二语言的句的句对;
根据预设语料筛选规则对所述句对进行筛选以生成语料对。
在本公开的一个实施例中,计算第一语言文学作品与第二语言文学作品的标题之间的相似度,包括:
根据预设的所述第一语言与所述第二语言的互译词典计算第一语言文学作品的标题和第二语言文学作品的标题之间的相似度的第一相似度得分;
根据预设翻译工具对第一语言文学作品的标题进行翻译,得到翻译结果;
对翻译结果以及待匹配的第二语言文学作品的标题进行分词和重合度计算,计算第一语言文学作品的标题和第二语言文学作品的标题之间的相似度的第二相似度得分;
对所述第一相似度得分和所述第二相似度得分进行加权计算,以得到第一语言文学作品的标题和第二语言文学作品的标题之间的相似度。
在本公开的一个实施例中,所述计算第一语言文学作品与第二语言文学作品的作者之间的匹配度,包括:
根据预设注音方案对第一语言文学作品的作者进行音译以获得音译作者名称;
根据所述音译作者名称与待匹配的第二语言文学作品的作者名称是否一致计算第一语言文学作品与第二语言文学作品的作者之间的匹配度。
在本公开的一个实施例中,所述根据预设语料筛选规则对所述句对进行筛选以生成语料对,包括:
根据预设句对筛选规则,基于句对中的对应句之间的长度比和/或相似度对所述句对进行筛选;
根据筛选出的符合句对筛选规则的句对生成语料对。
在本公开的一个实施例中,所述根据文学作品对中的第一语言文学作品和第二语言文学作品中的篇章内容以及篇章名称对第一语言文学作品和第二语言文学作品中的篇章进行对齐,包括:
对文学作品对中的第一语言文学作品和第二语言文学作品的篇章内容进行分词;
根据预设的所述第一语言与所述第二语言的互译词典翻译第一语言文学作品的篇章中的词以统计所述第一语言文学作品的篇章与第二语言文学作品的篇章中相同的n-gram的数量;
对第一语言文学作品的篇章与第二语言文学作品的篇章所组成的篇章对按照具有相同的n-gram的数量从高到低排序,并从所述排序的篇章对中筛选出前k个篇章对作为高相似度篇章对,其中,k为正整数;
计算所述高相似度篇章对中的所述第一语言的篇章名称与所述第二语言的篇章名称的相似度;
从所述高相似度篇章对中筛选出具有最高相似度的篇章名称的篇章对作为对齐的篇章。
在本公开的一个实施例中,所述计算所述高相似度篇章对中的所述第一语言的篇章名称与所述第二语言的篇章名称的相似度,包括:
对所述高相似度篇章对中所述第一语言的篇章名称中的篇章号和所述第二语言的篇章名称中的篇章号进行归一化以计算所述第一语言的篇章名称中的篇章号和所述第二语言的篇章名称中的篇章号的差的绝对值;和/或
计算所述高相似度篇章对中所述第一语言的篇章名称中的篇章标名与所述第二语言的篇章名称中的篇章标名之间的相似度;
根据所述第一语言的篇章名称中的篇章号和所述第二语言的篇章名称中的篇章号的差的绝对值和/或所述第一语言的篇章名称中的篇章标名与所述第二语言的篇章名称中的篇章标名之间的相似度,计算所述高相似度篇章对中的所述第一语言的篇章名称与所述第二语言的篇章名称的相似度。
本公开示例性实施例还提供了一种计算机存储介质,用于储存所述定位装置所用的计算机软件指令,其包含用于执行上述任一实施例所涉及的程序,从而具备方法所带来的技术效果。
图7是适于用来实现根据本公开一实施方式的语料生成方法的计算机系统的结构示意图。
如图7所示,计算机系统700包括处理器(CPU、TPU、GPU、FPGA等)701,其可以根据存储在只读存储器(ROM)702中的程序或者从存储部分708加载到随机访问存储器(RAM)703中的程序而执行上述附图所示的实施方式中的各种处理。在RAM703中,还存储有系统700操作所需的各种程序和数据。处理器701、ROM702以及RAM703通过总线704彼此相连。输入/输出(I/O)接口705也连接至总线704。
以下部件连接至I/O接口705:包括键盘、鼠标等的输入部分706;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分707;包括硬盘等的存储部分708;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分709。通信部分709经由诸如因特网的网络执行通信处理。驱动器710也根据需要连接至I/O接口705。可拆卸介质711,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器710上,以便于从其上读出的计算机程序根据需要被安装入存储部分708。
特别地,根据本公开的实施方式,上文参考附图描述的方法可以被实现为计算机软件程序。例如,本公开的实施方式包括一种计算机程序产品,其包括有形地包含在及其可读介质上的计算机程序,所述计算机程序包含用于执行附图中的方法的程序代码。在这样的实施方式中,该计算机程序可以通过通信部分709从网络上被下载和安装,和/或从可拆卸介质711被安装。
附图中的流程图和框图,图示了按照本公开各种实施方式的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,路程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本公开实施方式中所涉及到的单元或模块可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的单元或模块也可以设置在处理器中,这些单元或模块的名称在某种情况下并不构成对该单元或模块本身的限定。
作为另一方面,本公开还提供了一种计算机可读存储介质,该计算机可读存储介质可以是上述实施方式中所述装置中所包含的计算机可读存储介质;也可以是单独存在,未装配入设备中的计算机可读存储介质。计算机可读存储介质存储有一个或者一个以上程序,所述程序被一个或者一个以上的处理器用来执行描述于本公开的方法,从而具备方法所带来的技术效果。
以上描述仅为本公开的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本公开中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离所述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。
Claims (20)
1.一种语料生成方法,其特征在于,包括:
获取不同语言的文学作品以及文学作品的特征数据;
根据所述文学作品的特征数据将不同语言的文学作品进行匹配,以获得不同语言的文学作品对;
利用所述不同语言的文学作品对,获得不同语言的语料对。
2.根据权利要求1所述的方法,其特征在于,所述文学作品的特征数据包括:文学作品的标题、作者、摘要、篇章名称中的一种或多种。
3.根据权利要求2所述的方法,其特征在于,所述根据所述文学作品的特征数据将不同语言的文学作品进行匹配,以获得不同语言的文学作品对,包括:
获得不同语言的文学作品的标题之间的映射关系;
获得不同语言的文学作品的作者之间的映射关系;
根据所述标题之间的映射关系以及所述作者之间的映射关系将不同语言的文学作品进行匹配。
4.根据权利要求3所述的方法,其特征在于,所述方法还包括:
计算不同语言的文学作品的标题之间的相似度;
计算不同语言的文学作品的作者之间的匹配度;
通过预设方式对所述标题之间的映射关系、所述标题之间的相似度、所述作者之间的映射关系和所述作者之间的匹配度进行加权计算,得到不同语言的文学作品对。
5.根据权利要求4所述的方法,其特征在于,所述计算不同语言的文学作品的标题之间的相似度,包括:
根据预设的多种语言的互译词典计算不同语言的文学作品的标题之间的相似度的第一相似度得分;
根据预设翻译工具对不同语言的文学作品的标题进行翻译,得到翻译结果;
对翻译结果以及待匹配的文学作品的标题进行分词和重合度计算,计算不同语言的文学作品的标题之间的相似度的第二相似度得分;
对所述第一相似度得分和所述第二相似度得分进行加权计算,以得到不同语言的文学作品的标题之间的相似度。
6.根据权利要求4所述的方法,其特征在于,所述计算不同语言的文学作品的作者之间的匹配度,包括:
根据预设注音方案对不同语言的文学作品的作者进行音译以获得音译作者名称;
根据所述音译作者名称与待匹配文学作品的作者名称是否一致计算不同语言的文学作品的作者之间的匹配度。
7.根据权利要求4所述的方法,其特征在于,所述方法还包括:
计算不同语言的文学作品的摘要之间的相似度;和/或
计算不同语言的文学作品的特定部分的内容之间的相似度;
对所述标题之间的映射关系、标题之间的相似度、作者之间的映射关系、作者之间的匹配度、摘要之间的相似度、和/或特定部分的内容之间的相似度进行加权计算,获取包含不同语言的文学作品对。
8.根据权利要求2所述的方法,其特征在于,所述利用所述不同语言的文学作品对,获得不同语言的语料对,包括:
根据所述文学作品的篇章内容和篇章名称对文学作品对中的不同语言的文学作品的篇章进行对齐;
从文学作品中的已对齐的篇章中生成包含不同语言的对应句的句组;
根据预设句组筛选规则,基于句组中的对应句之间的长度比和/或相似度对所述句组进行筛选;
根据筛选出的符合句组筛选规则的句组生成语料对。
9.根据权利要求8所述的方法,其特征在于,所述根据所述文学作品的篇章内容和篇章名称对文学作品对中的不同语言的文学作品的篇章进行对齐,包括:
对文学作品对中的不同语言的篇章内容进行分词;
根据预设的多种语言的互译词典翻译被译文学作品的篇章中的词以统计被译文学作品的篇章与待匹配文学作品的篇章中相同的n-gram的数量;
对被译文学作品的篇章与待匹配文学作品的篇章所组成的篇章组按照具有相同的n-gram的数量从高到低排序,并从所述排序的篇章组中筛选出前k个篇章组作为高相似度篇章组,其中,k为正整数;
计算所述高相似度篇章组中的不同语言的篇章名称的相似度;
从所述高相似度篇章组中筛选出具有最高相似度的篇章名称的篇章组作为对齐的篇章。
10.根据权利要求9所述的方法,其特征在于,所述计算所述高相似度篇章组中的不同语言的篇章名称的相似度,包括:
对所述高相似度篇章组中不同语言的篇章名称中的篇章号进行归一化以计算不同语言的篇章号的差的绝对值;和/或
计算所述高相似度篇章组中不同语言的篇章名称中的篇章标名之间的相似度;
根据所述不同语言的篇章号的差的绝对值和/或不同语言的篇章名称中的篇章标名之间的相似度计算所述高相似度篇章组中的不同语言的篇章名称的相似度。
11.一种语料生成装置,其特征在于,包括:
获取模块,被配置为获取不同语言的文学作品以及文学作品的特征数据;
匹配模块,被配置为根据所述文学作品的特征数据将不同语言的文学作品进行匹配,以获得不同语言的文学作品对;
获得模块,被配置为利用所述不同语言的文学作品对,获得不同语言的语料对。
12.一种语料生成方法,其特征在于,包括:
获取第一语言文学作品、包含所述第一语言文学作品的标题、作者、摘要和篇章名称的第一语言文学作品特征数据、第二语言文学作品以及包含所述第二语言文学作品的标题、作者、摘要和篇章名称的第二语言文学作品特征数据;
获取所述第一语言文学作品的标题与所述第二语言文学作品的标题之间的映射关系以及作者之间的映射关系;
计算所述第一语言文学作品与所述第二语言文学作品的标题之间的相似度、作者之间的匹配度、摘要之间的相似度和特定部分的内容之间的相似度;
对所述第一语言文学作品与所述第二语言文学作品的标题之间的映射关系、作者之间的映射关系、标题之间的相似度、作者之间的匹配度、摘要之间的相似度和特定部分的内容之间的相似度进行加权计算,获取包含第一语言文学作品和第二语言文学作品的文学作品对;
根据文学作品对中的第一语言文学作品和第二语言文学作品中的篇章内容以及篇章名称对第一语言文学作品和第二语言文学作品中的篇章进行对齐;
从对齐的篇章获取包含相互对应的第一语言的句与第二语言的句的句对;
根据预设语料筛选规则对所述句对进行筛选以生成语料对。
13.根据权利要求12所述的方法,其特征在于,计算第一语言文学作品与第二语言文学作品的标题之间的相似度,包括:
根据预设的所述第一语言与所述第二语言的互译词典计算第一语言文学作品的标题和第二语言文学作品的标题之间的相似度的第一相似度得分;
根据预设翻译工具对第一语言文学作品的标题进行翻译,得到翻译结果;
对翻译结果以及待匹配的第二语言文学作品的标题进行分词和重合度计算,计算第一语言文学作品的标题和第二语言文学作品的标题之间的相似度的第二相似度得分;
对所述第一相似度得分和所述第二相似度得分进行加权计算,以得到第一语言文学作品的标题和第二语言文学作品的标题之间的相似度。
14.根据权利要求12所述的方法,其特征在于,所述计算第一语言文学作品与第二语言文学作品的作者之间的匹配度,包括:
根据预设注音方案对第一语言文学作品的作者进行音译以获得音译作者名称;
根据所述音译作者名称与待匹配的第二语言文学作品的作者名称是否一致计算第一语言文学作品与第二语言文学作品的作者之间的匹配度。
15.根据权利要求12所述的方法,其特征在于,所述根据预设语料筛选规则对所述句对进行筛选以生成语料对,包括:
根据预设句对筛选规则,基于句对中的对应句之间的长度比和/或相似度对所述句对进行筛选;
根据筛选出的符合句对筛选规则的句对生成语料对。
16.根据权利要求12所述的方法,其特征在于,所述根据文学作品对中的第一语言文学作品和第二语言文学作品中的篇章内容以及篇章名称对第一语言文学作品和第二语言文学作品中的篇章进行对齐,包括:
对文学作品对中的第一语言文学作品和第二语言文学作品的篇章内容进行分词;
根据预设的所述第一语言与所述第二语言的互译词典翻译第一语言文学作品的篇章中的词以统计所述第一语言文学作品的篇章与第二语言文学作品的篇章中相同的n-gram的数量;
对第一语言文学作品的篇章与第二语言文学作品的篇章所组成的篇章对按照具有相同的n-gram的数量从高到低排序,并从所述排序的篇章对中筛选出前k个篇章对作为高相似度篇章对,其中,k为正整数;
计算所述高相似度篇章对中的所述第一语言的篇章名称与所述第二语言的篇章名称的相似度;
从所述高相似度篇章对中筛选出具有最高相似度的篇章名称的篇章对作为对齐的篇章。
17.根据权利要求16所述的方法,其特征在于,所述计算所述高相似度篇章对中的所述第一语言的篇章名称与所述第二语言的篇章名称的相似度,包括:
对所述高相似度篇章对中所述第一语言的篇章名称中的篇章号和所述第二语言的篇章名称中的篇章号进行归一化以计算所述第一语言的篇章名称中的篇章号和所述第二语言的篇章名称中的篇章号的差的绝对值;和/或
计算所述高相似度篇章对中所述第一语言的篇章名称中的篇章标名与所述第二语言的篇章名称中的篇章标名之间的相似度;
根据所述第一语言的篇章名称中的篇章号和所述第二语言的篇章名称中的篇章号的差的绝对值和/或所述第一语言的篇章名称中的篇章标名与所述第二语言的篇章名称中的篇章标名之间的相似度,计算所述高相似度篇章对中的所述第一语言的篇章名称与所述第二语言的篇章名称的相似度。
18.一种语料生成装置,其特征在于,包括:
第一获取模块,被配置为获取第一语言文学作品、包含所述第一语言文学作品的标题、作者、摘要和篇章名称的第一语言文学作品特征数据、第二语言文学作品以及包含所述第二语言文学作品的标题、作者、摘要和篇章名称的第二语言文学作品特征数据;
第二获取模块,被配置获取所述第一语言文学作品的标题与所述第二语言文学作品的标题之间的映射关系以及作者之间的映射关系;
第一计算模块,被配置为计算所述第一语言文学作品与所述第二语言文学作品的标题之间的相似度、作者之间的匹配度、摘要之间的相似度和特定部分的内容之间的相似度;
第二计算模块,被配置为对所述第一语言文学作品与所述第二语言文学作品的标题之间的映射关系、作者之间的映射关系、标题之间的相似度、作者之间的匹配度、摘要之间的相似度和特定部分的内容之间的相似度进行加权计算,获取包含第一语言文学作品和第二语言文学作品的文学作品对;
对齐模块,被配置为根据文学作品对中的第一语言文学作品和第二语言文学作品中的篇章内容以及篇章名称对第一语言文学作品和第二语言文学作品中的篇章进行对齐;
第三获取模块,被配置为从对齐的篇章获取包含相互对应的第一语言的句与第二语言的句的句对;
生成模块,被配置为根据预设语料筛选规则对所述句对进行筛选以生成语料对。
19.一种电子设备,其特征在于,包括存储器和处理器;其中,
所述存储器用于存储一条或多条计算机指令,其中,所述一条或多条计算机指令被所述处理器执行以实现如权利要求1-10、12-17任一项所述的方法。
20.一种可读存储介质,其上存储有计算机指令,其特征在于,该计算机指令被处理器执行时实现如权利要1-10、12-17任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010746890.6A CN114064907A (zh) | 2020-07-29 | 2020-07-29 | 语料生成方法、装置、系统、设备和可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010746890.6A CN114064907A (zh) | 2020-07-29 | 2020-07-29 | 语料生成方法、装置、系统、设备和可读存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114064907A true CN114064907A (zh) | 2022-02-18 |
Family
ID=80226844
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010746890.6A Pending CN114064907A (zh) | 2020-07-29 | 2020-07-29 | 语料生成方法、装置、系统、设备和可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114064907A (zh) |
-
2020
- 2020-07-29 CN CN202010746890.6A patent/CN114064907A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Roark et al. | Processing South Asian languages written in the Latin script: the Dakshina dataset | |
Li et al. | Joint bilingual name tagging for parallel corpora | |
CN104750820A (zh) | 一种语料库的过滤方法及装置 | |
Garcia et al. | Using bilingual word-embeddings for multilingual collocation extraction | |
CN111950301A (zh) | 一种中译英的英语译文质量分析方法及系统 | |
Teshome et al. | Preliminary experiments on English-Amharic statistical machine translation | |
Van Der Goot et al. | Lexical normalization for code-switched data and its effect on POS-tagging | |
Gugliotta et al. | Tarc: Tunisian arabish corpus first complete release | |
Mrinalini et al. | Pause-based phrase extraction and effective OOV handling for low-resource machine translation systems | |
Alansary et al. | Towards analyzing the international corpus of Arabic (ICA): Progress of morphological stage | |
Athukorala et al. | Swa Bhasha: Message-Based Singlish to Sinhala Transliteration | |
Alfaidi et al. | Exploring the performance of farasa and CAMeL taggers for arabic dialect tweets. | |
CN114064907A (zh) | 语料生成方法、装置、系统、设备和可读存储介质 | |
Yang et al. | Inflating a training corpus for SMT by using unrelated unaligned monolingual data | |
Rateb et al. | A critical survey on arabic named entity recognition and diacritization systems | |
Sankaravelayuthan et al. | English to tamil machine translation system using parallel corpus | |
Yashothara et al. | Improving Phrase-Based Statistical Machine Translation with Preprocessing Techniques | |
Barbaresi et al. | Data-driven identification of German phrasal compounds | |
Salloum et al. | Unsupervised Arabic dialect segmentation for machine translation | |
Liu | The technical analyses of named entity translation | |
AlGahtani et al. | Joint Arabic segmentation and part-of-speech tagging | |
Lancioni et al. | Semi-Automatic Data Annotation, POS Tagging and Mildly Context-Sensitive Disambiguation: the eXtended Revised AraMorph (XRAM) | |
Bear et al. | Evaluating unsupervised approaches to morphological segmentation for wolastoqey | |
Alkhazi | Compression-Based Parts-of-Speech Tagger for the Arabic Language | |
Surjit Singh et al. | A short review about Manipuri language processing |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |