CN109918683A - 一种语言分析系统及方法 - Google Patents

一种语言分析系统及方法 Download PDF

Info

Publication number
CN109918683A
CN109918683A CN201910162323.3A CN201910162323A CN109918683A CN 109918683 A CN109918683 A CN 109918683A CN 201910162323 A CN201910162323 A CN 201910162323A CN 109918683 A CN109918683 A CN 109918683A
Authority
CN
China
Prior art keywords
languages
sentence
initial
unit
language
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910162323.3A
Other languages
English (en)
Inventor
黄练
林培煜
钟君柳
邓江海
苏兆南
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong Mechanical and Electrical College
Original Assignee
Guangdong Mechanical and Electrical College
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong Mechanical and Electrical College filed Critical Guangdong Mechanical and Electrical College
Priority to CN201910162323.3A priority Critical patent/CN109918683A/zh
Publication of CN109918683A publication Critical patent/CN109918683A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)

Abstract

本发明涉及人工智能领域,具体的公开了一种语言分析系统及方法,包括输入单元、处理单元、数据库单元和输出单元;输入单元,接收初始语种的语句输入;处理单元,用于将初始语种语句根据不同的中间语种进行翻译,处理单元还包括有比较选择单元对翻译后的标准语种语句比较选择处理;数据库单元,用于存储大量的分析后的语言数据,供处理单元中的比较选择单元直接取用。本发明将需要分析的语言通过翻译的形式转化为其他语种,通过多个语种确定整句的表述内容,克服了单个词或句单独分析的缺点;在对语言的分析过程中通过相同内容进行比较,用数据真实的反应语言的表述内容,使得语言分析更加准确。

Description

一种语言分析系统及方法
技术领域
本发明涉及人工智能领域,具体是一种语言分析系统及方法。
背景技术
自然语言处理是人工智能和语言学领域的分支学科,是利用计算机工具对人类特有的书面形式和口头形式的自然语言信息进行各种处理和加工的技术。自然语言处理大致分为两个层面,一个是浅层分析,如分词,词性标注。这种技术只需对句子的局部范围进行分析处理,已经属于成熟技术。另一个层面是对语言进行深层的处理,需要对句子的句法、语义、语用进行全局分析。
中国专利(公布号:CN 107544955 A)公开的一种自然语言句法分析方法及系统,将长句分隔成若干分词,在进行逐一分析生成树,最后格式化输出,但是对语句的分析要结合不同的使用环境,尤其是中国文字,相同的字、词具有不同的意思,需要结合语境的情况才能够准确的分析出语言的真实意思,因此,需要提出一种新的语言分析系统及方法。
发明内容
本发明的目的在于提供一种语言分析系统及方法,以解决上述背景技术中提出的问题。
为实现上述目的,本发明提供如下技术方案:
一种语言分析系统,包括输入单元、处理单元、数据库单元和输出单元;
输入单元,接收初始语种的语句输入;
处理单元,用于将初始语种语句根据不同的中间语种进行翻译,其中包括对初始语种的翻译和对不同中间语种的结果再次进行标准语种翻译;处理单元还包括有比较选择单元对翻译后的标准语种语句比较选择处理;
数据库单元,用于存储大量的分析后的语言数据,供处理单元中的比较选择单元直接取用;
输出单元,用于输出比较选择单元的输出结果对应的初始语种的内容数据。
进一步的:所述的初始语种与处理单元中的语种不同。
进一步的:所述处理单元的中间语种设置有至少五种。
进一步的:所述标准语种为国际通用语种。
进一步的:所述数据库单元为云数据库。
一种语言分析方法,包括以下步骤:
S1:输入初始语种语句,将其输入语种的语句分别独立预设的至少五种中间语种语句,根据不同中间语种与初始语种的语言环境,准确翻译输出语句,将初始语种语句以多种语种的形式并存;
S2:对所有的翻译后的中间语种语句再次独立进行翻译,翻译为不同于中间语种的另外一种标准语种的语句,判断翻译后的多个标准语种的语句一致性,选取一致性较多的标准语种语句作为初始语种要表述的意思内容,其中再结合数据库单元中存储的初始语种的语句表述意思内容人工校对;
S3:校对选取后的标准语种语句再次翻译成初始语种语句,输出初始语种语句表述的意思内容。
进一步的:所述中间语种数量为奇数个。
进一步的:选取一致性较多的标准语种语句为选取数量大于一半中间语种的数量的标准语种语句。
进一步的:人工校对是通过人工对输入单元的初始语种语句表述意思内容进行确认。
与现有技术相比,本发明的有益效果是:本发明将需要分析的语言通过翻译的形式转化为其他语种,通过多个语种确定整句的表述内容,克服了单个词或句单独分析的缺点;在对语言的分析过程中通过相同内容进行比较,用数据真实的反应语言的表述内容,使得语言分析更加准确;发明对于语言的理解准确,为智能设备提供了准确的语言输入和输出,有利于智能设备领域的发展。
附图说明
图1为一种语言分析系统的结构示意图。
图2为一种语言分析系统工作时的流程示意图。
图3为一种语言分析系方法的流程示意图。
具体实施方式
实施例1
请参阅图,本发明实施例中,一种语言分析系统,包括输入单元、处理单元、数据库单元和输出单元。
输入单元,接收初始语种的语句输入;
处理单元,用于将初始语种语句根据不同的中间语种进行翻译,将初始语种语句用不同的语种多次翻译呈现,越多的中间语种,更能准确的表达其真实意义,提高准确性,中间语种翻译时根据两种语言的翻译规则进行翻译,当中间语种也具有多种翻译形式时,需要通过数据库以及人工确认;中间语种翻译后再利用标准语种对翻译后的内容进行处理,将各种语种表述的内容以标准语种形式展现,便于比较内容,翻译成标准语种的语句后,可以通过其中的单个的词、语句内容进行判断是否一致,通过比较选择单元对标准语种语句进行确认选择出最佳的表述内容,输出准确的结果;其中包括对多个标准语种语句数量进行统计,将相同表述内容的记为相同,并计数,确定重复程度,比较计数结果,当计数大于一定数值时,则具有相同表述内容的翻译为准确结果,如果没有大于一定数值时,则需要数据库或者人工进行确定。
数据库单元,用于存储大量的分析后的语言数据,供处理单元中的比较选择单元直接取用;存储的内容是通过大数据等积累的大量数据,为翻译以及比较选择单元提供数据进行选择。
输出单元,用于输出比较选择单元的输出结果对应的初始语种的内容数据。
所述的初始语种与处理单元中的语种不同。
所述处理单元的中间语种设置为五种。
所述标准语种为英语。
所述数据库单元为云数据库。
采用该系统进行语言分析时,将输入的初始语种语句输入,通过内置的五种语种翻译模块将输入的初始语种语句同时翻译成对应语种的语句,相互之间不会影响,翻译的五种语句,需要根据该语种与初始语种之间的翻译方式进行语义翻译,对于不唯一的翻译,可以同时提供该语种的多方式翻译,再人工或数据库进行确认,五种语种对应翻译为五种结果,再将五种结果翻译成预设的标准语种的语句,翻译后的标准语种的语句,如果五种结果翻译后的标准语句表述内容相同,或者表述相同内容的数量超过3个,则认为该内容为初始语种的表述内容;如果表述的相同内容的数量较少,例如有四种表述意思,需要人工进行校对确认;再将标准语种语句需要表述内容翻译成初始语种语句,从而将初始语种语句准确分析出要表述的内容。
例如,中文表述为:我要买东西,要向小明借钱;如果采用常规的将句子断开成单词翻译后,直接从字面上可以有两种表述,一种是:我是债务人,小明是债权人,另外一种是:我是债权人,小明是债务人,在两句相互独立的情况下,这样的语句,在智能领域中无法识别,通过本系统及方法,只需要将其从多种语言翻译,最后得出统一的翻译结果,通过标准语种(英语)表述,会结合整句进行翻译,确定债务人和债权人,则不会出现两种翻译,通过整句进行翻译,则很容易确认其内容。
实施例2
一种语言分析系统,包括输入单元、处理单元、数据库单元和输出单元。
输入单元,接收初始语种的语句输入;
处理单元,用于将初始语种语句根据不同的中间语种进行翻译,将初始语种语句用不同的语种多次翻译呈现,越多的中间语种,更能准确的表达其真实意义,提高准确性,中间语种翻译时根据两种语言的翻译规则进行翻译,当中间语种也具有多种翻译形式时,需要通过数据库以及人工确认;中间语种翻译后再利用标准语种对翻译后的内容进行处理,将各种语种表述的内容以标准语种形式展现,便于比较内容,翻译成标准语种的语句后,可以通过其中的单个的词、语句内容进行判断是否一致,通过比较选择单元对标准语种语句进行确认选择出最佳的表述内容,输出准确的结果;其中包括对多个标准语种语句数量进行统计,将相同表述内容的记为相同,并计数,确定重复程度,比较计数结果,当计数大于一定数值时,则具有相同表述内容的翻译为准确结果,如果没有大于一定数值时,则需要数据库或者人工进行确定;
数据库单元,用于存储大量的分析后的语言数据,供处理单元中的比较选择单元直接取用;存储的内容是通过大数据等积累的大量数据,为翻译以及比较选择单元提供数据进行选择。
输出单元,用于输出比较选择单元的输出结果对应的初始语种的内容数据。
所述的初始语种与处理单元中的语种不同。
所述处理单元的中间语种设置为七种。
所述标准语种为英语。
所述数据库单元为云数据库。
在进行语言分析时,将输入的初始语种语句输入,通过内置的七种语种翻译模块将输入的初始语种语句同时翻译成对应语种的语句,相互之间不会影响,翻译的七种语句,需要根据该语种与初始语种之间的翻译方式进行语义翻译,对于不唯一的翻译,可以同时提供该语种的多方式翻译,再人工或数据库进行确认,七种语种对应翻译为七种结果,再将七种结果翻译成预设的标准语种的语句,翻译后的标准语种的语句,如果七种结果翻译后的标准语句表述内容相同,或者表述相同内容的数量超过5个,则认为该内容为初始语种的表述内容;如果表述的内容相同的数量较少,例如有最多只有两个语种的表述内容相同,需要人工进行校对确认;再将标准语种语句需要表述内容翻译成初始语种语句,从而将初始语种语句准确分析出要表述的内容。
此外,应当理解,虽然本说明书按照实施方式加以描述,但并非每个实施方式仅包含一个独立的技术方案,说明书的这种叙述方式仅仅是为清楚起见,本领域技术人员应当将说明书作为一个整体,各实施例中的技术方案也可以经适当组合,形成本领域技术人员可以理解的其他实施方式。

Claims (9)

1.一种语言分析系统,其特征在于,包括输入单元、处理单元、数据库单元和输出单元;
输入单元,接收初始语种的语句输入;
处理单元,用于将初始语种语句根据不同的中间语种进行翻译,其中包括对初始语种的翻译和对不同中间语种的结果再次进行标准语种翻译;处理单元还包括有比较选择单元对翻译后的标准语种语句比较选择处理;
数据库单元,用于存储大量的分析后的语言数据,供处理单元中的比较选择单元直接取用;
输出单元,用于输出比较选择单元的输出结果对应的初始语种的内容数据。
2.根据权利要求1所述的一种语言分析系统,其特征在于:所述的初始语种与处理单元中的语种不同。
3.根据权利要求2所述的一种语言分析系统,其特征在于:所述处理单元的中间语种设置有至少五种。
4.根据权利要求1所述的一种语言分析系统,其特征在于:所述标准语种为国际通用语种。
5.根据权利要求1所述的一种语言分析系统,其特征在于:所述数据库单元为云数据库。
6.一种采用权利要求1-5任一所述的语言分析系统的分析方法,其特征在于,包括以下步骤:
S1:输入初始语种语句,将其输入语种的语句分别独立预设的至少五种中间语种语句,根据不同中间语种与初始语种的语言环境,准确翻译输出语句,将初始语种语句以多种语种的形式并存;
S2:对所有的翻译后的中间语种语句再次独立进行翻译,翻译为不同于中间语种的另外一种标准语种的语句,判断翻译后的多个标准语种的语句一致性,选取一致性较多的标准语种语句作为初始语种要表述的意思内容,其中再结合数据库单元中存储的初始语种的语句表述意思内容人工校对;
S3:校对选取后的标准语种语句再次翻译成初始语种语句,输出初始语种语句表述的意思内容。
7.根据权利要求6所述的一种语言分析方法,其特征在于:所述中间语种数量为奇数个。
8.根据权利要求6所述的一种语言分析方法,其特征在于:选取一致性较多的标准语种语句为选取数量大于一半中间语种的数量的标准语种语句。
9.根据权利要求6所述的一种语言分析方法,其特征在于:人工校对是通过人工对输入单元的初始语种语句表述意思内容进行确认。
CN201910162323.3A 2019-03-05 2019-03-05 一种语言分析系统及方法 Pending CN109918683A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910162323.3A CN109918683A (zh) 2019-03-05 2019-03-05 一种语言分析系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910162323.3A CN109918683A (zh) 2019-03-05 2019-03-05 一种语言分析系统及方法

Publications (1)

Publication Number Publication Date
CN109918683A true CN109918683A (zh) 2019-06-21

Family

ID=66963257

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910162323.3A Pending CN109918683A (zh) 2019-03-05 2019-03-05 一种语言分析系统及方法

Country Status (1)

Country Link
CN (1) CN109918683A (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8185375B1 (en) * 2007-03-26 2012-05-22 Google Inc. Word alignment with bridge languages
CN107430737A (zh) * 2015-03-25 2017-12-01 如文思翻译有限公司 用于计算翻译成本的计算机系统

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8185375B1 (en) * 2007-03-26 2012-05-22 Google Inc. Word alignment with bridge languages
CN107430737A (zh) * 2015-03-25 2017-12-01 如文思翻译有限公司 用于计算翻译成本的计算机系统

Similar Documents

Publication Publication Date Title
Yu et al. Syntaxsqlnet: Syntax tree networks for complex and cross-domaintext-to-sql task
AU2019359213B2 (en) Determining levels of detail for data visualizations using natural language constructs
CN100511215C (zh) 多语种翻译存储器和翻译方法
US20020143823A1 (en) Conversion system for translating structured documents into multiple target formats
CN107329961A (zh) 一种云翻译记忆库快速增量式模糊匹配的方法
CN108665141B (zh) 一种从突发事件预案中自动抽取应急响应流程模型的方法
CN106780656A (zh) 图表输出方法及装置
CN108519963B (zh) 一种将流程模型自动转换为多语言文本的方法
CN112420145A (zh) 电子病历文书数据处理方法、装置及计算机可读存储介质
Wax Automated grammar engineering for verbal morphology
CN101777043A (zh) 一种文字转换方法及装置
CN108536724A (zh) 一种基于双层哈希索引的地铁设计规范中主体识别方法
JP2016164707A (ja) 自動翻訳装置及び翻訳用モデル学習装置
CN101201750B (zh) 利用语法词法分析工具为编解码提供数据的方法
CN112651226B (zh) 基于依存句法树的知识解析系统及方法
Gugliotta et al. Tarc: Tunisian arabish corpus first complete release
CN101520778A (zh) 用于确定中文词性的设备和方法
CN109977391A (zh) 一种文本数据的信息抽取方法及装置
CN107894977A (zh) 结合兼类词词性消歧模型和字典的越南语词性标记方法
CN109918683A (zh) 一种语言分析系统及方法
CN104281695B (zh) 基于组合理论的类自然语言的语义信息抽取方法及其系统
CN116541286A (zh) 一种基于插桩和符号执行的高覆盖率测试数据生成方法
CN116360794A (zh) 数据库语言解析方法、装置、计算机设备及存储介质
CN107153564B (zh) 一种词法解析工具
Cui et al. Combine unsupervised learning and heuristic rules to annotate organism morphological descriptions

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination