CN105210057A - 多语言商业标记管理以及音译合成 - Google Patents

多语言商业标记管理以及音译合成 Download PDF

Info

Publication number
CN105210057A
CN105210057A CN201480027839.2A CN201480027839A CN105210057A CN 105210057 A CN105210057 A CN 105210057A CN 201480027839 A CN201480027839 A CN 201480027839A CN 105210057 A CN105210057 A CN 105210057A
Authority
CN
China
Prior art keywords
grapheme
character
input
data
storer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201480027839.2A
Other languages
English (en)
Other versions
CN105210057B (zh
Inventor
安东尼·J·斯克里菲尼亚诺
迈克尔·克莱内
肖恩·卡罗兰
沃威克·马修斯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dun and Bradstreet Corp
Dun and Bradstreet Inc
Original Assignee
Dun and Bradstreet Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dun and Bradstreet Inc filed Critical Dun and Bradstreet Inc
Publication of CN105210057A publication Critical patent/CN105210057A/zh
Application granted granted Critical
Publication of CN105210057B publication Critical patent/CN105210057B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding
    • G06F40/129Handling non-Latin characters, e.g. kana-to-kanji conversion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/55Rule-based translation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Machine Translation (AREA)
  • Controls And Circuits For Display Device (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

提供了一种方法,该方法包括:将字符串解析成字符串的字素,并且生成表示字素的抽象的字符模式。还提供了执行该方法的系统以及包括用于对处理器进行控制以执行该方法的指令的存储装置。

Description

多语言商业标记管理以及音译合成
相关申请的交叉引用
本申请要求于2013年3月15日提交的序列号为61/793,044的美国临时专利申请的优先权,其内容通过引用被合并到本文中。
技术领域
本公开内容涉及下述情况:信息已经在两种或更多种语言或文字系统之间被转换,从而产生原始信息的第二表示、第三表示和多级表示。
背景技术
本部分中描述的方法是能够推行的方法,但是不一定是先前已经构思或推行的方法。因此,本部分中描述的方法可能不是本申请中的权利要求的现有技术并且不允许通过包括在本部分中而成为现有技术。
本公开内容关注数据的自动语言转换领域,尤其关注特定上下文(如商业实体名称)内的不同的正字法之间(如俄语西里尔体至拉丁体)的转换。
现有技术方法并未令人满意地将第一语言的名称的不同部分转换成第二语言的名称。在该上下文中,“不同部分”指代语义元素,例如给定的名称、地理名称、普通名词、描述性形容词、公司后缀等。例如,可能存在下述需要:将本来用西里尔文书写的俄语的商业名称转换成让讲德语的观众“可理解”的拉丁体。现有技术方法通常通过执行一一映射和/或直译来解决该问题。在该上下文中,“一一映射”指目标语言中的已经被映射至源数据(名称)中的字的单个字的存储和检索。在该上下文中,“直译”指将字的含义(或者整个名称)从源语言翻译成目标语言。因此,现有技术方法实现了下述转换:该转换是“可发音的”,但是该转换并不例如将商业名称的描述性部分转换成讲德语的人能够理解的语言。
现有技术方法的另一个问题是:在技术产生错误翻译或转换的情况下,该技术并没有提高翻译或转换质量的自动方法。即,现有技术方法未能从经验中获得学习并利用经验。
发明内容
提供了一种方法,该方法包括:将字符串解析成它的字素,并且生成表示字素的抽象的字符模式。还提供了执行该方法的系统以及包括用于对处理器进行控制以执行该方法的指令的存储装置。
附图说明
图1是数据的自动语言转换的处理的逻辑结构的框图。
图2是由图1的处理使用的参考数据存储器的逻辑结构的框图。
图3是由图1的处理使用的经验数据存储器的逻辑结构的框图。
图4是图1的处理的第一级功能的逻辑结构的框图。
图5是图1的处理的第二级功能的逻辑结构的框图。
图6是图1的处理的递归完善功能的逻辑结构的框图。
图7是图1的处理的第一级功能的示例性操作的流程图。
图7A是图7的一部分的详图,并且描绘了正由字素矩阵处理执行的示例性操作的流程图。
图7B是图7的一部分的详图,并且描绘了正由上下文领悟处理执行的示例性操作的流程图。
图7C是图7的一部分的详图,并且描绘了正由语义领悟处理执行的示例性操作的流程图。
图8是图1的处理的第二级功能的示例性操作的流程图。
图8A是图8的一部分的详图,并且描绘了规则引擎和编排服务利用转换编排规则存储器进行的交互。
图8B描绘了通过俄语西里尔文示例的翻译和语际转换进行的处理;
图9是递归完善功能的示例性操作的流程图。
图9A是图9的一部分的详图,并且描绘了启发处理的符号表示和由启发处理的子组件参考的数据存储器。
图9B是图9的一部分的详图,并且描绘了整合处理和由该整合处理的子组件参考的数据存储器。
图9C示出了规则引擎的符号表示和编排服务的符号表示。
图10是采用本文中描述的方法的系统的框图。
在每个图中,用相同的附图标记来表示多于一个图所共有的部件或特征。
具体实施方式
本文中使用的术语“语际”和在序列号为61/793,044的美国临时专利申请中使用的术语“词素文字(lexigraphical)”都表示“在两种或更多种语言之间或者与两种或更多种语言相关”。
图1是用于数据的自动语言转换的处理100的逻辑结构的框图。处理100从可以是人或呼叫系统的用户130接收被提供给语际转换领悟环境135的输入105,并且产生输出数据106,输出数据106是已经在两种或更多种语言或文字系统之间被转换的输入105的某个版本。处理100产生输入105的第二表示、第三表示和多级表示,并且因此为用户130提供优于源正字法与目标正字法之间的文字转录的领悟。
处理100给用户130提供领悟,包括但不限于对语言间(即语言之间或正字法之间,即文字系统之间、语义和非语义之间、上下文和非上下文之间语际转换或翻译)的特定领域中的相似性的推断。处理100给用户130提供使用多个同时形态(即一个或更多个语言或文字系统中出现的信息)来识别、分析、比较、对比或提取输入105中包括的信息的能力,以特别通过对输入105的标记的本质要素或属性的识别在不同语言、文稿或文字系统(词态学)之间或之中进行转录。这些本质要素用作同源词(cognate),从而允许源于不同的词态学的数据的有意义的比较。
输入105包括输入实质性数据110和输入语义上下文数据115。
输入实质性数据110是输入的输入本身的主题数据,其通常将是以特定语言和文字系统(正字法)表达的企业的名称。输入实质性数据110是“非结构化的”,其中不存在对有助于处理100的执行的输入实质性数据110的内容的固有指导。
输入语义上下文数据115是可以被发现或者特别地根据对输入105、内容、历史或提供输入105的环境的分析或者输入105的元数据被推断的上下文数据。输入语义上下文数据115被认为是“结构化的”,因为输入语义上下文数据115是关于输入实质性数据110的元数据,例如,输入实质性数据110的源,输入实质性数据110被接收的日期以及将输入实质性数据110传输至用于执行处理100的系统的系统。
处理100包括跨越语际转换领悟环境135中的多个子域或功能子集的功能,即,第一级功能140、第二级功能150和递归完善功能160。语际转换领悟环境135还包括数据存储器170。
数据存储器170是数据存储装置,并且包括参考数据存储器172和经验数据存储器174。基于在执行处理100期间获得的经验对经验数据存储器174进行更新。根据客观规则和标准而不是基于通过执行处理100获得的经验对参考数据存储器172进行更新。将数据存储器170分成参考数据存储器172和经验数据存储器174仅出于便于说明的目的,而并不一定反映相关存储器的物理分割。
第一级功能140是作用于输入的输入数据(即输入105)的功能的集合,并且包括三个子组件,即,字素矩阵142、上下文领悟144和语义领悟146。
第二级功能150是对输入105和第一级功能140的输出的组合进行操作的功能和处理的集合。第二级功能150包括两个子组件,即,翻译152和语际转换154。
递归完善功能160是对来自第一级功能140和第二级功能150的结果以及从对处理100的执行的识别和分析获得的其他输入进行操作的功能的集合,以提高处理100的效率和功效。这样的分析包括对驻留在经验数据存储器174中的参考数据的管理和合成。递归完善功能160包括两个子组件,即,启发162和整合164。
图2是参考数据存储器172的逻辑结构的框图。参考数据存储器172包括:
(a)同义词存储器205,其存储特定字或其他语言子分量的同义词或替代词条的集合;
(b)风格存储器210,其包括关于书面语言的风格方面的信息和定性数据,例如相对权重或得分;
(c)标准化存储器215,其包括有助于词、短语或其他语言子分量的标准化的规则和词典;
(d)翻译词典220,其包括用于将特定字、短语或其他语言子分量从源正字法翻译成目标正字法以及两种正字法(即,源正字法和目标正字法)之间的潜在翻译的规则;
(e)语际转换存储器225,其包括用于将特定字、短语或其他语言子分量从源正字法语际转换成目标正字法以及两种正字法(即,源正字法和目标正字法)之间的潜在语际转换的规则;
(f)源类型存储器230,其包括关于数据源类型的信息;
(g)转换编排规则存储器235,其包括编排规则;以及
(h)优化规则存储器240,其包括用于对整个系统进行优化的规则。
图3是经验数据存储器174的逻辑结构的框图。经验数据存储器174包括:
(a)字素分析器存储器305,其包括用于对字素进行解析和分析的词典和规则;
(b)字素模式频率存储器310,其包括字素的频率计数;
(c)唯一性存储器315,其包括与字、短语和其他语言子分量的唯一性有关的规则、频率表和词典;
(d)源存储器320,其包括关于特定数据源的信息;
(e)统计数字存储器325,其包括在语际转换领悟环境135的子组件的执行中生成的统计数字;
(f)档案库330,其包括由语际转换领悟环境135对输入105进行处理的所有输出;
(g)信号存储器335,其特别包括从语际转换领悟环境135的执行获得的信号量和得分;
(h)替代存储器340,其包括特定字、短语和其他语言子分量的替代词条;以及
(i)性能存储器345,其包括与语际转换领悟环境135的关键性能指示符有关的统计数字。
图4是第一级功能140的逻辑结构的框图。如前面提到的,第一级功能140包括字素矩阵142、上下文领悟144和语义领悟146。
字素矩阵142是在最基本的语义层面上对输入105进行操作(例如将输入105分解成其基本字素)的组件子处理的集合。字素矩阵142包括字素解析器与分析器405、字素模式映射器410和字素模式建模器415。
字素解析器与分析器405特别使用存储在字素分析器存储器305中的词典和元数据对输入105进行解析和分析,以识别馈入其他处理中的属性语义元素。
字素模式映射器410使用字素解析器与分析器405的输出,并且以符号的方式消除输入105的内容的语义模式的歧义,即,以符号的方式对输入105的内容的语义模式进行解构。字素模式映射器410的输出是展现输入105的内容的结构的符号模式,即,抽象表示。这样的歧义消除的示例是:将“Jim’sMowingSpringvale”转换成“PN-CD-GL”,其中,“PN”表示专有名词,“CD”表示商业描述,以及“GL”表示地理位置。
字素模式建模器415获得字素模式映射器410的输出,并且使用字素模式频率存储器310中的数据来辨别与输入105的组成字素类似的模式。用于相似性的测试超越表面上的模式相似性。
上下文领悟144是在上下文的层面上对输入105进行操作的组件子处理的集合。即,他们考虑来自输入105的出处、计时和内容的属性和标记属性但是高于基本的字素层面语义分析对输入105进行分析。上下文领悟144包括上下文分析器420、源分类器425、唯一性分析器430和替代生成器435。
上下文分析器420通过在关注该内容的整体含义以及由字素模式映射器410和字素模式建模器415生成的属性的层面上对输入105的内容进行分析来分析输入105。该分析包括对输入105的内容的分析,以特别地找出“专门术语”和“行话”,并且可以参照功能(如地理编码器(即,解决地理实体的标识的服务)和行业词典(例如用于特定国家的特定语言的特定行业的首字母缩略词列表))。上下文分析器420的主要输出是关于由上下文分析器420执行的分析的元数据,即,输入105的内容的分类和特征。
当推敲分类和模式时,在上下文分析器420和字素矩阵142的组件之间可能存在处理的多次叠代。
源分类器425参考关于处理100的先前输入的源和源类型的历史数据、被包括在源存储器320和源类型存储器230中的历史数据对关于在输入语义上下文数据115内被提供的输入105的源元数据进行分析。源分类器425的输出是关于来自与输入105的源相同或相似的源的典型输入的结构(如关于风格、音调和语法结构的数据)和定性方面(如真实性、保真度、可变性、完整性和复杂性)的描述性数据。
唯一性分析器430考虑唯一性存储器315作为参考,在字(或其他语言子分量)层面上对输入105的唯一性以及字或短语的组相对于各种基准线的唯一性进行分析。唯一性分析器430的输出是描述输入105及其组成部分的相对唯一性的得分。
替代生成器435生成关于输入105的组成部分的替代字(或其他字素表示)、短语和名称。这些替代是上下文相关的(即,它们不是基于标准频率表或语言层面的规则)、基于经验的并且源自替代存储器340。
语义领悟146是在语言层面上对输入105进行操作的组件子处理的集合。即,它们在输入的推测的语言上下文(例如,俄语西里尔文或者更多特定“语言”(例如用于政府实体的命名的俄语西里尔文))的层面上进行操作。语义领悟146包括标准化处理440、同义词分析器445和风格分析器450。
标准化处理440对输入105执行清理、解析和标准化处理,以创建输入105的内容的“最佳标准视图”。标准化处理440将利用标准化存储器215中的数据。
同义词分析器445对输入105的词语或其他语言子分量进行分析,以获得同义词作为对输入105的特定语言的替代。同义词分析器445利用同义词存储器205。
风格分析器450对输入105的语言的风格(包括音调、形式、行话、同义词、缩写词等的观测数据)进行分析,并且计算表示属性风格的得分或指示符。风格分析器450将利用风格存储器345中的数据。风格分析器450的输出是描述输入105的风格特质的得分和标记。
图5是第二级功能150的逻辑结构的框图。如前面提到的,第二级功能包括翻译152和语际转换154。第二级功能150使用规则引擎525和编排服务530。
规则引擎525使用包括在转换编排规则存储器235中的规则。
编排服务530是使用包括在转换编排规则存储器235中的工作流程和决策逻辑的工作流程系统。
规则引擎525和编排服务530跨越第二级功能150,即跨越翻译125和语际转换154协调工作,以对第一级功能140的构成部分的输出进行调度,以便建立输入105及其组成部分的布置。
由规则引擎525和编排服务530执行的工作流程和规则集合被包括在转换编排规则存储器235中。这些工作流程和规则将使用标记、得分和形成第一级功能140的输出的其他数据。
翻译152包括在语言之间对来自输入105的字(或其他语言子分量)进行转换的子处理。就这一点而言,翻译152包括翻译保留字查找505和翻译处理510。
翻译保留字查找505是下述处理:在该处理中,使用翻译词典220对包括元数据和由第一级功能140生成的变型的输入105的部分进行分析,以产生输入105的部分的专门的翻译或基于“专门术语”的翻译的候选。
翻译处理510在语言(例如俄语和英语)之间对包括元数据和由第一级功能140生成的变型的输入105的部分进行翻译。翻译处理510可以包括对执行翻译功能的Web服务、应用程序和其他系统的调用。
语际转换154包括在语言之间对来自输入105的字(或其他语言子分量)进行翻译的若干子处理。语际转换154包括词典间保留字查找515和转换处理520。
词典间保留字查找515是下述处理:在该处理中,使用音译词典220对包括元数据和由第一级功能140生成的变型的输入105的部分进行分析以产生候选翻译,该候选翻译是输入105或其部分的专门转换或基于“专门术语”的转换。
转换处理520在稿件之间对输入105的部分进行音译(例如,从希腊体到拉丁体)。转换处理520可以包括对执行音译功能的Web服务、应用程序和其他系统的调用。
图6是递归完善功能160的逻辑结构的框图。如前面所述,递归完善功能160包括启发162和整合164。被第二级功能150使用的规则引擎525和编排服务530还被递归完善功能160使用,并且跨越启发162和整合164协调工作,以影响对处理100的功效和效率的优化和提高。
如上面提到的,编排服务530是工作流程系统,在递归完善功能160的上下文中,编排服务530使用优化规则存储器240中包括的工作流程和决策逻辑。
启发162是下述组件子处理的集合:该组件子处理连续地对语际转换领悟环境135的所有子组件的输出以及存储在档案库330中的输出数据106(包括在档案库330中)进行分析,以便根据所观察的行为对处理100的执行进行优化。处理100借助于启发162进行自我完善。即,启发162学习经验,并且改变处理100内执行的工作流程的顺序或者重新安排处理100内执行的工作流程的顺序,以便产生最佳的或或决定性的结果。启发162包括统计分析器605、词典定序器610和信号得分器615。
统计分析器605执行统计分析(例如对输入105的字、短语或其他语言子分量进行频率分析以及跨越历史输入的历史数据与包括在档案库330和经验数据存储器174中的语际转换领悟环境135的处理100的输出的集中趋势的测量),以便创建被存储在统计数字存储器325中并且可以用作通过整合164对第一级功能140和第二级功能150进行协调的源的得分和其他标记。
词典定序器610特别消耗统计分析器605的输出,以便创建或更新重新安排词典的顺序的工作流程,包括语际转换存储器225、同义词存储器205、字素模式频率存储器310、唯一性存储器315和替代存储器340,使得利用这些存储器(例如,从字素模式频率存储器310检索数据)的处理返回最佳词条或决定性词条。
信号得分器615执行下述例程:给从处理100的执行获得的各种标记和矩阵分配优先级属性,并且将这些得分发送至信号存储器335。
整合164是下述组件子处理的集合:该组件子处理特别消耗启发162的输出,然后为由规则引擎525和编排服务530执行的工作流程提供输入,以对语际转换领悟环境135的子组件内的处理和例程进行修改,以便提高处理100的执行的功效和效率。这些改变被记录为优化规则存储器240中的词条。就这一点而言,整合164包括历史分析器620和优化器625。
历史分析器620在处理100的执行期间对语际转换领悟环境135的性能标记(包括但不限于执行时间、源利用、数据存储器利用、品质和真实性属性以及用户反馈得分)进行分析。性能标记被历史分析器620记录在性能存储器345中,并且优化器625读取性能标记以对用于更新或修改的处理进行选择。
优化器625还消耗由历史分析器620生成的性能标记,对优化规则存储器240进行更新,并且对规则引擎525和编排服务530中的优化例程的执行进行初始化。
图7是用于俄语西里尔文的示例的、第一级功能140的操作的流程图。
图7A是图7的一部分的详图,并且描绘了用于俄语西里尔文的示例的、正由字素矩阵142执行的操作的流程图。
图7B是图7的一部分的详图,并且描绘了用于俄语西里尔文的示例的、正由上下文领悟144执行的操作的流程图。
图7C是图7的一部分的详图,并且描绘了用于俄语西里尔文的示例的、正由语义领悟146执行的操作的流程图。
参照图7,第一级功能140接收输入105,在该示例中,输入105是俄语西里尔文“НевскоеЭлектромонтажноеОбщество”,即,来自2014年1月1日的源“PartnerCollectionSystem”的查询实质性数据110,即输入语义上下文数据115。第一级功能140产生中间输出760,该中间输出760被存储至档案库330。
参照图7A,字素解析器与分析器405对输入105进行解析并且参照字素分析器存储器305,给查询实质性数据110的组成部分(字素、字、短语等)指定分类。
在该示例中,字素解析器与分析器405对输入实质性数据110进行分析,并且如表1中所示对输入实质性数据110进行分类。
表1
输入的部分 元数据:类型 元数据:排序
Невское 名词-名称 N1
Электромонтажное 形容词-描述符 N2
Общество 名词-商业实体类型 S3
字素模式映射器410获得输入实质性数据110和由字素解析器与分析器405生成的元数据(在上面表1中的第2列和第3列中示出),并且创建“字素模式”,该“字素模式”是查询实质性数据110的语法结构和语义结构的抽象。
在该示例中,字素模式映射器410产生1N:GN-2N:CD-3S:IN模式,该1N:GN-2N:CD-3S:IN模式表示输入由名称(N)和后缀(S)这两个主要部分以及三个详细部分地理名称(GN)、商业描述(CD)和公司后缀(IN)组成。
字素模式建模器415获得字素模式映射器410的输出,并且对字素模式频率存储器310进行搜索以找出以显著方式类似的模式。
表2呈现了由字素模式建模器415检索的一些模式的示例。实际上,其他模式(如图7A中所示的那些模式)在字素模式建模器415内部也将被检索到。
表2
参照图7B,源分类器425对输入的源元数据(输入语义上下文数据115)进行分析。在该示例中,使用关键字“PCS”找到源“PartnerCollectionSystem”,并且如表3所示,源分类器425从源存储器320检索元数据。
表3
表2中的元数据列表仅仅是示例性的,而并不表示闭集。
上下文分析器420获得输入105和字素矩阵142的输出,并且参照地理编码器和商业词典,产生输入105的内容的组成部分(字和短语或者等同物)的详细分类。在该示例中,在表4中示出了详细分类。
表4
新的元数据(即,表4中所示的上下文分析)可以被存储为代码或标记,以便由其他组件有效使用。
替代生成器435获得输入105并且参照替代存储器340生成如表5所示的替代数据。
表5
唯一性分析器430获得输入105(包括第一级功能140的其他部分的输出),并且参照唯一性存储器315生成唯一性得分,即,表示输入105的部分的唯一性的得分。在表6中示出了本示例的唯一性得分。
表6
当生成唯一性得分时,唯一性分析器430还考虑由替代生成器435生成的替代数据。
参考图7C,标准化处理440使用词典特定规则(在该情况下,相关词典可以是“西里尔文俄语商业名称”)对输入105的内容(包括由替代生成器43生成的替代)进行标准化。在该示例中,输入可以如表7中所示被标准化。
表7
同义词分析器445查找输入105及其在同义词存储器205中的部分,
以便为输入105的组成部分和由替代生成器435生成的替代生成例如在表8中示出的同义词。
表8
风格分析器450跨多个维度对输入105的风格进行分析,并且创建元数据来表达该分析。在该示例中,风格分析器450产生如表9所示的输出。
表9
在表9中,作为示例,风格元数据列示出了基于风格的得分的输入“НевскоеЭлектромонтажноеОбщество”的属性,该得分基于维度(例如语言特定行话的使用、同义词的使用和输入105的结构的语法形式)对输入105的风格进行分类。
图8是使用俄语西里尔文输入作为示例的第二级功能150的示例性操作的流程图。
图8A是图8的一部分的详图,并且描绘了规则引擎525和编排服务530利用转换编排规则存储器235进行的交互,以示出它们与图8中的俄语西里尔文示例的处理的关系。
参照图8A,规则引擎525参考所有该数据消耗输入105和第一级功能140的所有输出,并且转换编排规则存储器235生成数据驱动规则(“工作流程”),然后所述数据驱动规则(“工作流程”)被存储在转换编排规则存储器235中,工作流程针对输入105的布置来确定处理100中的随后一系列的步骤。
编排服务530执行由规则引擎525指定且被存储在转换编排规则存储器235中的工作流程。
表10针对本示例列出了由规则引擎525指定的工作流程步骤。
表10
表10中所示的工作流程步骤仅仅是该示例所要求的指令的小的子集。全集将包括关于输入105的许多变型和由第一级功能140生成的其属性部分的动作。
图8B是图8的一部分的详图,并且描绘了关于图8中的俄语西里尔文示例的、正由翻译152和语际转换154处理的示例性数据。就这一点而言,翻译152产生经翻译后的数据860,语际转换154产生经转换后的数据870。
再参照图8,对经翻译后的数据860和经转换后的数据870进行组合以产生输出数据106。更具体地,规则引擎525对翻译152和语际转换154的结果执行规则,以对被存储在档案库330中的最终的结果(即输出数据106)进行组合。
表11示出了经翻译后的数据860和经转换后的数据870的示例内容。
表11
输入的部分 经翻译后的数据860 经转换后的数据870
Невское [无] NEVSKOYE,涅瓦河
Электромонтажное 布线,电气 ELEKTROMONTAZHNOYE
Общество 协会,团体,企业 OBSHCHESTVO,OOO,LLC
表12示出了变成输出数据106的最终合成的版本。
表12
输入的部分 合成以产生输出数据106
Невское 涅瓦河
Электромонтажное 电气
Общество 有限责任公司
因此,“НевскоеЭлектромонтажноеОбщество”已经被转换成“涅瓦河电气有限责任公司”。
图9是递归完善功能160的示例性操作的流程图。图9示出了递归完善功能160和被递归完善功能160的子组件参考的数据存储器的符号表示。
图9A是图9的一部分的详图,并且描绘了启发162及其子组件统计分析器605、信号得分器615和词典定序器610以及与这些子组件进行交互的数据存储器。
图9B是图9的一部分的详图,并且描绘了整合164和被整合164的子组件参考的数据存储器。
图9C是图9的一部分的详图,并且描绘了规则引擎525和编排服务530与优化规则存储器240进行的交互。
因此,处理100是下述方法,该方法包括:
(a)将输入105即字符串解析成其字素(参见图7A,字素解析器分析器405);以及
(b)生成表示字素的抽象的字符的模式(参见图7A,字素模式映射器410)。
字符的模式包括与输入105的字素中的字素相对应的字符的组。例如,在图7A中,模式“1N:GN-2N:CD-3S:IN”包括字符“CD”的组,字符“CD”的组与“商业描述”的意义相对应,并且由参考字素分析器存储器305的字素模式映射器410进行映射。
处理100还包括从数据源检索关于字素的信息。例如,参见图7B,上下文分析器420。
再参照图7A的字素模式映射器410,字符的模式包括第一字符组(例如GN)和第二字符组(例如CD)的序列。GN与输入105的字素中的第一字素相对应,CD与输入105的字素中的第二字素相对应。参照图8A,处理100还包括(a)基于该序列从多个处理中选择处理,以及(b)对字符串执行该处理。
处理100产生字符串的翻译(即经翻译后的数据860)和语际转换(即经转换后的数据870)的组合。
图10是使用本文中描述的方法的系统1000的框图。系统1000包括与数据通信网络(即网络1030,例如因特网)耦接的计算机1005。
计算机1005包括用户接口1010、处理器1015和存储器1020。虽然在本文中计算机1005被表示为独立装置,但是计算机1005不限于这样的独立装置,相反,其可以被耦接至分布式处理系统中的其他装置(未示出)。
用户接口1010包括用于使得用户130能够将信息和命令选择传送至处理器1015的输入装置,例如键盘或语音识别子系统。用户接口1010还包括输出装置(如显示器或打印机)。光标控件(如鼠标、跟踪球或操纵杆)使得用户130能够操纵显示器上的光标,以将另外的信息和命令选择传送至处理器1015。
系统1000还包括经由网络1030在通信上耦接至计算机1005的用户装置1045。用户130可以通过用户装置1045与计算机205进行交互,替代地,用户130可以通过用户接口1010与计算机205进行交互。
处理器1015是被配置成响应于指令并且执行指令的逻辑电路的电子装置。
存储器1020是编码有计算机程序的非暂态计算机可读装置。就这一点而言,存储器1020存储能够由处理器1015读取并执行以对处理器1015的操作进行控制的数据和指令。存储器1020可以以随机存取存储器(RAM)、硬盘、只读存储器(ROM)或其组合来实现。存储器1020的组件之一是程序模块1025。
程序模块1025包括用于控制处理器1015以执行本文中描述的方法的指令。例如,在程序模块1025的控制下,处理器1015执行处理100。本文中使用术语“模块”来表示可以被实现为独立组件或被实现为多个次级组件(subordinatecomponent)的集成配置的功能操作。因此,程序模块1025可以被实现为单个模块或者被实现为彼此协调操作的多个模块。此外,虽然程序模块1025在本文中被描述为被安装在存储器1020中并且因此以软件实现,但是程序模块1025可以以硬件(例如,电子电路)、固件、软件或其组合的任何一种来实现。
处理器1015通过网络1030或用户接口1010接收输入105。输入105可以被提供至计算机1005,并且因此由用户130通过用户接口1010或用户装置1045执行处理100。输入105还可以由在计算机1005中或经由网络1030被耦接至计算机1005的远程装置(未示出)上进行操作的自动处理来提供,例如从使用批处理机器能力提交的文件获得的输入。数据存储器170可以是计算机1005的部件,例如,存储在存储器1020内,或者可以位于计算机1005的外部,例如,在数据库1040中或在计算机1005经由本地网络(未示出)或经由网络1030访问的数据库(未示出)中。处理器1015通过网络1030或用户接口1010返回输出数据106。
虽然程序模块1025被表示为已经被加载到存储器1020中,但是程序模块1025可以被配置在存储装置1035上,以便随后加载到存储器1020中。存储装置1035也是编码有计算机程序的非暂态计算机可读装置,并且可以是存储有程序模块1025的任意常规存储装置。存储装置1035的示例包括软盘、光盘、磁带、只读存储器、光存储介质、通用串行总线(USB)闪存驱动、数字通用光盘或者压缩驱动器。存储装置1035还可以是随机存取存储器或位于远程存储系统上并且经由网络1030耦接至计算机1005的其他类型的电子存储器。
处理100和系统1000的技术效果包括:提高了输出精确性,增强了操作的可伸缩性以及引入了使得处理100能够随着时间推移而精确度增加地执行的闭环学习处理。
本文中描述的技术是示例性的,并且不应当被解释为包含对本公开内容的任何特定限制。应当理解,本领域的技术人员可以设计各种替代、组合和修改。例如,除非另有说明或者步骤本身有规定,否则可以以任何次序来执行本文中描述的、与所述处理相关联的步骤。本公开内容意在包括落在所附权利要求的范围内的所有这样的替代、修改和变化。
术语“包括(comprises)”或“包括(comprising)”要被解释为:详细说明出现的所陈述的特征、整数、步骤或要素,但是并不排除出现的一个或更多个其他特征、整数、步骤或要素或者其组合。术语“一个(a)”和“一个(an)”是不定冠词,并且同样地并不排除具有多个冠词的实施方式。

Claims (15)

1.一种方法,包括:
将字符串解析成所述字符串的字素;以及
生成表示所述字素的抽象的字符模式。
2.根据权利要求1所述的方法,其中,所述字符模式包括与所述字素中的字素相对应并且被映射至数据源的字符组。
3.根据权利要求2所述的方法,还包括从所述数据源检索关于所述字素的信息。
4.根据权利要求1所述的方法,
其中,所述字符模式包括第一字符组和第二字符组的序列,
其中,所述第一字符组与所述字素中的第一字素相对应,
其中,所述第二字符组与所述字素中的第二字素相对应,并且
其中,所述方法还包括:
基于所述序列,从多个处理中选择处理;以及
对所述字符串执行所述处理。
5.根据权利要求4所述的方法,其中,所述处理产生所述字符串的翻译和语际转换的组合。
6.一种系统,包括:
处理器;以及
存储器,所述存储器通信上被耦接至所述处理器,并且所述存储器包括能够由所述处理器读取以使所述处理器执行以下动作的指令:
将字符串解析成所述字符串的字素;以及
生成表示所述字素的抽象的字符模式。
7.根据权利要求6所述的系统,其中,所述字符模式包括与所述字素中的字素相对应并且被映射至数据源的字符组。
8.根据权利要求7所述的系统,其中,所述指令还使所述处理器执行以下动作:
从所述数据源检索关于所述字素的信息。
9.根据权利要求6所述的系统,
其中,所述字符模式包括第一字符组和第二字符组的序列,
其中,所述第一字符组与所述字素中的第一字素相对应,
其中,所述第二字符组与所述字素中的第二字素相对应,并且
其中,所述指令还使所述处理器执行以下动作:
基于所述序列,从多个处理中选择处理;以及
对所述字符串执行所述处理。
10.根据权利要求9所述的系统,其中,所述处理产生所述字符串的翻译和语际转换的组合。
11.一种包括能够由处理器读取以使所述处理器执行以下动作的指令的存储装置:
将字符串解析成所述字符串的字素;以及
生成表示所述字素的抽象的字符模式。
12.根据权利要求11所述的存储装置,其中,所述字符模式包括与所述字素中的字素相对应并且被映射至数据源的字符组。
13.根据权利要求12所述的存储装置,其中,所述指令还使所述处理器执行以下动作:
从所述数据源检索关于所述字素的信息。
14.根据权利要求11所述的存储装置,
其中,所述字符模式包括第一字符组和第二字符组的序列,
其中,所述第一字符组与所述字素中的第一字素相对应,
其中,所述第二字符组与所述字素中的第二字素相对应,并且
其中,所述指令还使得所述处理器执行以下动作:
基于所述序列,从多个处理中选择处理;以及
对所述字符串执行所述处理。
15.根据权利要求14所述的存储装置,其中,所述处理产生所述字符串的翻译和语际转换的组合。
CN201480027839.2A 2013-03-15 2014-03-14 多语言商业标记管理以及音译合成 Active CN105210057B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201361793044P 2013-03-15 2013-03-15
US61/793,044 2013-03-15
PCT/US2014/029244 WO2014144716A1 (en) 2013-03-15 2014-03-14 Multi-lingual business indicia curation and transliteration synthesis

Publications (2)

Publication Number Publication Date
CN105210057A true CN105210057A (zh) 2015-12-30
CN105210057B CN105210057B (zh) 2018-12-14

Family

ID=51531780

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201480027839.2A Active CN105210057B (zh) 2013-03-15 2014-03-14 多语言商业标记管理以及音译合成

Country Status (13)

Country Link
US (1) US9489351B2 (zh)
EP (1) EP2973003A4 (zh)
JP (1) JP6595979B2 (zh)
KR (1) KR101797125B1 (zh)
CN (1) CN105210057B (zh)
AU (1) AU2014228823B2 (zh)
BR (1) BR112015023779A2 (zh)
CA (1) CA2906763C (zh)
HK (1) HK1217784A1 (zh)
PH (1) PH12015502103B1 (zh)
RU (1) RU2644071C2 (zh)
SG (1) SG11201507601TA (zh)
WO (1) WO2014144716A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111680647A (zh) * 2020-06-12 2020-09-18 中华人民共和国杭州海关 一种用于危化品检验的护目镜及其检验方法

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6008693B2 (ja) * 2012-10-30 2016-10-19 キヤノン株式会社 情報処理装置及びその制御方法、プログラム
JP6392445B2 (ja) * 2015-03-24 2018-09-19 株式会社東芝 音訳支援装置、音訳支援方法及び音訳支援プログラム
KR102565275B1 (ko) * 2016-08-10 2023-08-09 삼성전자주식회사 병렬 처리에 기초한 번역 방법 및 장치
US10269353B2 (en) 2016-08-30 2019-04-23 Tata Consultancy Services Limited System and method for transcription of spoken words using multilingual mismatched crowd unfamiliar with a spoken language
US10460748B2 (en) * 2017-10-04 2019-10-29 The Toronto-Dominion Bank Conversational interface determining lexical personality score for response generation with synonym replacement
US10339931B2 (en) 2017-10-04 2019-07-02 The Toronto-Dominion Bank Persona-based conversational interface personalization using social network preferences
KR102070452B1 (ko) 2019-06-14 2020-02-03 최재용 업소용 음식물 쓰레기 처리장치
KR20210152099A (ko) 2020-06-05 2021-12-15 박성근 음식물 쓰레기 처리장치
US20230127193A1 (en) 2021-10-27 2023-04-27 Bank Of America Corporation System and Method for Recursive Transliteration of Machine Interpretable Languages

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6411932B1 (en) * 1998-06-12 2002-06-25 Texas Instruments Incorporated Rule-based learning of word pronunciations from training corpora
US20080270112A1 (en) * 2007-04-27 2008-10-30 Oki Electric Industry Co., Ltd. Translation evaluation device, translation evaluation method and computer program
US20100179803A1 (en) * 2008-10-24 2010-07-15 AppTek Hybrid machine translation
US20100299133A1 (en) * 2009-05-19 2010-11-25 Tata Consultancy Services Limited System and method for rapid prototyping of existing speech recognition solutions in different languages
US8005664B2 (en) * 2007-04-30 2011-08-23 Tachyon Technologies Pvt. Ltd. System, method to generate transliteration and method for generating decision tree to obtain transliteration
CN103189859A (zh) * 2010-08-26 2013-07-03 谷歌公司 输入文本字符串的转换

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4636673B2 (ja) 2000-11-16 2011-02-23 パナソニック株式会社 音声合成装置および音声合成方法
KR100515698B1 (ko) 2003-05-16 2005-09-16 (주)다음소프트 색인 및 형태소 분석에 이용되는 특정문서 고유사전의 작성방법 및 작성을 위한 장치
US7415411B2 (en) * 2004-03-04 2008-08-19 Telefonaktiebolaget L M Ericsson (Publ) Method and apparatus for generating acoustic models for speaker independent speech recognition of foreign words uttered by non-native speakers
US7822596B2 (en) * 2005-12-05 2010-10-26 Microsoft Corporation Flexible display translation
KR20090008865A (ko) * 2007-07-19 2009-01-22 서오텔레콤(주) 휴대폰 컨텐츠 실시간 번역 시스템 및 그 방법
US8326600B2 (en) * 2010-08-11 2012-12-04 Google Inc. Evaluating and modifying transliteration rules
WO2012061588A2 (en) * 2010-11-04 2012-05-10 Legendum Pro Vita, Llc Methods and systems for transcribing or transliterating to an iconophonological orthography
JP6069211B2 (ja) * 2010-12-02 2017-02-01 アクセシブル パブリッシング システムズ プロプライアタリー リミテッド テキスト変換及び表現システム
US8977535B2 (en) * 2011-04-06 2015-03-10 Pierre-Henry DE BRUYN Transliterating methods between character-based and phonetic symbol-based writing systems

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6411932B1 (en) * 1998-06-12 2002-06-25 Texas Instruments Incorporated Rule-based learning of word pronunciations from training corpora
US20080270112A1 (en) * 2007-04-27 2008-10-30 Oki Electric Industry Co., Ltd. Translation evaluation device, translation evaluation method and computer program
US8005664B2 (en) * 2007-04-30 2011-08-23 Tachyon Technologies Pvt. Ltd. System, method to generate transliteration and method for generating decision tree to obtain transliteration
US20100179803A1 (en) * 2008-10-24 2010-07-15 AppTek Hybrid machine translation
US20100299133A1 (en) * 2009-05-19 2010-11-25 Tata Consultancy Services Limited System and method for rapid prototyping of existing speech recognition solutions in different languages
CN103189859A (zh) * 2010-08-26 2013-07-03 谷歌公司 输入文本字符串的转换

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
TATIANA GORNOSTAY AND INGUNA SKADIņA: "Pattern-based English-Latvian Toponym Translation", 《THE 17TH NORDIC CONFERENCE OF COMPUTATIONAL LINGUISTICS》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111680647A (zh) * 2020-06-12 2020-09-18 中华人民共和国杭州海关 一种用于危化品检验的护目镜及其检验方法

Also Published As

Publication number Publication date
JP2016516247A (ja) 2016-06-02
BR112015023779A2 (pt) 2017-07-18
PH12015502103A1 (en) 2016-01-11
JP6595979B2 (ja) 2019-10-23
RU2644071C2 (ru) 2018-02-07
US9489351B2 (en) 2016-11-08
KR101797125B1 (ko) 2017-11-13
CN105210057B (zh) 2018-12-14
EP2973003A1 (en) 2016-01-20
PH12015502103B1 (en) 2016-01-11
WO2014144716A1 (en) 2014-09-18
SG11201507601TA (en) 2015-10-29
US20140278350A1 (en) 2014-09-18
CA2906763A1 (en) 2014-09-18
RU2015142998A (ru) 2017-04-20
EP2973003A4 (en) 2016-12-21
AU2014228823A1 (en) 2015-10-22
AU2014228823B2 (en) 2017-06-22
KR20150140683A (ko) 2015-12-16
CA2906763C (en) 2019-04-16
HK1217784A1 (zh) 2017-01-20

Similar Documents

Publication Publication Date Title
CN105210057A (zh) 多语言商业标记管理以及音译合成
Jung Semantic vector learning for natural language understanding
US11263714B1 (en) Automated document analysis for varying natural languages
US11573957B2 (en) Natural language processing engine for translating questions into executable database queries
CN112926345B (zh) 基于数据增强训练的多特征融合神经机器翻译检错方法
CN109508441B (zh) 通过自然语言实现数据统计分析的方法、装置及电子设备
Barrière Natural language understanding in a semantic web context
Bécue-Bertaut Textual data science with R
Karim et al. A step towards information extraction: Named entity recognition in Bangla using deep learning
EP4348603A1 (en) Application-specific optical character recognition customization
Hou et al. A study on Chinese register characteristics based on regression analysis and text clustering
Tüselmann et al. Are end-to-end systems really necessary for NER on handwritten document images?
CN111738008B (zh) 基于多层模型的实体识别方法、装置、设备及存储介质
Altuncu et al. Graph-based topic extraction from vector embeddings of text documents: Application to a corpus of news articles
Sarkar A hidden markov model based system for entity extraction from social media english text at fire 2015
CN116402166B (zh) 一种预测模型的训练方法、装置、电子设备及存储介质
JP2021114234A (ja) 情報処理装置、情報処理システム、および情報処理プログラム
CN115831117A (zh) 实体识别方法、装置、计算机设备和存储介质
Sarkar et al. A memory-based learning approach for named entity recognition in Hindi
Groza et al. Reference information extraction and processing using random conditional fields
Ali et al. Word embedding based new corpus for low-resourced language: Sindhi
Wang et al. Utilizing Machine Learning Techniques for Classifying Translated and Non-Translated Corporate Annual Reports
Kolkman Cross-domain textual geocoding: the influence of domain-specific training data
Du et al. A Word Vector Representation Based Method for New Words Discovery in Massive Text
US20240054290A1 (en) Deep technology innovation management by cross-pollinating innovations dataset

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 1217784

Country of ref document: HK

GR01 Patent grant
GR01 Patent grant