CN108197107A - 数据处理方法 - Google Patents
数据处理方法 Download PDFInfo
- Publication number
- CN108197107A CN108197107A CN201711472949.1A CN201711472949A CN108197107A CN 108197107 A CN108197107 A CN 108197107A CN 201711472949 A CN201711472949 A CN 201711472949A CN 108197107 A CN108197107 A CN 108197107A
- Authority
- CN
- China
- Prior art keywords
- character string
- natural language
- structural analysis
- grammar
- results
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/253—Grammatical analysis; Style critique
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
公开了一种数据处理方法,通过获取与自然语言语句对应的字符序列或其标识,根据字符序列或其标识获取对应的自然语言语法结构分析结果以及检测信息,最后在人机交互界面上展示所述自然语言语法结构分析结果,由此,可以及时的发现自然语言语句存在的错误,并对该错误加以改正,同时还可以有效地展示自然语言语句对应的其他信息,提高展示效果,帮助使用者提高使用效率。
Description
技术领域
本申请涉及计算机及互联网技术,具体涉及一种数据处理方法。
背景技术
现有的计算机自然语言处理系统通常只能给出原句以及原句的译文。这不利于使用者深入理解不同的自然语言的区别,同时还不利于使用者发现人们在使用自然语言的过程中出现的错误,并运用正确的自然语言表达方式加以改正,除此之外还存在展示不直观的问题。
发明内容
有鉴于此,本申请提供一种数据处理方法,以提高现有的计算机自然语言处理系统的展示性能和纠错性能,从而帮助使用者提高使用效率。
本申请提供一种数据处理方法,包括:
获取至少一个字符序列或字符序列的标识,每个字符序列对应于自然语言的一个语句;
获取所述字符序列的自然语言语法结构分析结果;
获取所述字符序列的检测信息,所述检测信息包括与所述自然语言语法结构分析结果对应的语法错误的检测结果;
在人机交互界面上展示所述字符序列的自然语言语法结构分析结果。
优选地,所述检测信息还包括与所述字符序列相关的语言知识注释。
优选地,所述检测信息还包括所述语法错误的纠正结果。
优选地,所述在人机交互界面上展示所述字符序列的自然语言语法结构分析结果包括:
在人机交互界面上同时展示所述检测信息中的至少一种信息和所述字符序列的自然语言语法结构分析结果。
优选地,所述获取所述字符序列的自然语言语法结构分析结果包括:
通过句法分析算法获取所述字符序列的自然语言语法结构分析结果;或者
通过检索预定的例句库获取与所述字符序列匹配的自然语言语法结构分析结果。
优选地,所述获取所述字符序列的检测信息包括:
通过语法检测算法和语法纠正算法进行检测获取对应的检测信息;或者
通过检索预定的例句库进行检测获取对应的检测信息。
优选地,所述在人机交互界面上展示所述字符序列的自然语言语法结构分析结果包括:
以图形方式展示所述字符序列的自然语言语法结构分析结果;和/或
以列表方式展示所述字符序列的自然语言语法结构分析结果;和/或
以文本方式展示所述字符序列的自然语言语法结构分析结果。
优选地,所述在人机交互界面上展示所述字符序列的自然语言语法结构分析结果包括:
以与所述字符序列对比的方式展示所述字符序列的自然语言语法结构分析结果。
优选地,所述方法还包括:
获取更正信息,所述更正信息与所述字符序列的检测信息对应;
根据所述更正信息更新所述字符序列的检测信息。
优选地,所述方法还包括:
在下一次获取到相同的字符序列或字符序列的标识时,获取更新后的检测信息进行展示。
通过获取与自然语言语句对应的字符序列或其标识,根据字符序列或其标识获取对应的自然语言语法结构分析结果以及检测信息,最后在人机交互界面上展示所述自然语言语法结构分析结果,由此,可以及时的发现自然语言语句存在的错误,并对该错误加以改正,同时还可以有效地展示自然语言语句对应的其他信息,提高展示效果,帮助使用者提高使用效率。
附图说明
通过以下参照附图对本申请实施例的描述,本申请的上述以及其它目的、特征和优点将更为清楚,在附图中:
图1是本申请实施例的数据处理方法的流程图;
图2是本申请实施例的自然语言语句的语法结构的展示示意图;
图3是本申请实施例进行转换数据展示的界面示意图;
图4是本申请另一个实施例进行转换数据展示的界面示意图;
图5是本申请另一个实施例进行转换数据展示的界面示意图;
图6是本申请另一个实施例进行转换数据展示的界面示意图;
图7是本申请另一个实施例进行转换数据展示的界面示意图;
图8是本申请另一个实施例进行转换数据展示的界面示意图;
图9是本申请另一个实施例进行转换数据展示的界面示意图;
图10是本申请另一个实施例进行转换数据展示的界面示意图;
图11是本申请另一个实施例进行转换数据展示的界面示意图;
图12是本申请另一个实施例进行转换数据展示的界面示意图。
具体实施方式
以下基于实施例对本申请进行描述,但是本申请并不仅仅限于这些实施例。在下文对本申请的细节描述中,详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述也可以完全理解本申请。为了避免混淆本申请的实质,公知的方法、过程、流程、元件和电路并没有详细叙述。
此外,本领域普通技术人员应当理解,在此提供的附图都是为了说明的目的,并且附图不一定是按比例绘制的。
除非上下文明确要求,否则整个说明书和权利要求书中的“包括”、“包含”等类似词语应当解释为包含的含义而不是排他或穷举的含义;也就是说,是“包括但不限于”的含义。
在本申请的描述中,需要理解的是,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性。此外,在本申请的描述中,除非另有说明,“多个”的含义是两个或两个以上。
图1是本申请实施例的数据处理方法的流程图。如图1所示,所述方法包括:
步骤S100、获取至少一个字符序列或字符序列的标识,每个字符序列对应于自然语言的一个语句。
具体地,通过设置于人机交互界面上文本输入控件或文本选择控件接收用户输入或选择的一个字符序列或一组字符序列。所述字符序列是自然语言(例如,英文)的一个句子。所述一组字符序列是自然语言(例如,英文)的多个句子。用户可以在文本控件中输入字符序列,也可以通过直接选中文本的方式使得字符序列被获取到。
另外,也可以通过选择的方式直接获得唯一标识字符序列的标识。这适用于字符序列已经预先存储在系统中的情况。这对于某些针对特定考试真题的语言学习系统是有利的。
步骤S200、获取所述字符序列的自然语言语法结构分析结果。
在本实施例中,可以通过句法分析算法获取所述字符序列的自然语言语法结构分析结果;和/或通过检索预定的例句库获取所述字符序列的自然语言语法结构分析结果。
以英文语句“I can completely understand what what you just said reallymeant.”为例,通过句法分析算法可以获得其对应的自然语言语法结构分析结果为:I作为主语,can understand作为谓语,从句“what what you just said really meant”作为宾语,在该从句中,第一个what为从句引导词,“what you just said”为从句主语,meant为从句谓语;对于“what you just said”从句,what为从句引导词,you为从句主语,said为从句谓语。其可以通过如图2所示的图示方式进行展示。
例如,其可以通过已有的各种自然语言句法分析算法(例如,中国专利CN201410172114.4中公开的句法结构解析方法或中国专利CN201410419634.0中公开的句法结构解析方法)对字符序列进行处理获得,也可以通过查询预先整理设置的例句库来获取。例如,可以对历年高考英文试卷中涉及的英文语句人工进行语法分析,将语法分析结果存储在数据库中。后续,通过匹配字符序列,或字符序列的标识来在数据库中查找对应的语法分析结果。
可选地,上述两种获取方法可以进行结合。例如,先在例句库中进行匹配,查找输入或选择的字符序列是否是例句库中已经存在的例句,如果不是,再调用句法分析算法来获取对应的语法结构分析结果。
步骤S300、获取所述字符序列的检测信息。
所述检测信息包括与所述自然语言语法结构分析结果对应的语法错误的检测结果、所述语法错误的纠正结果,以及与所述字符序列相关的语言知识注释。所述自然语言语法结构分析结果对应的语法错误的检测结果包括“未发现语法错误”检测信息和所述字符序列的语法错误。即当字符序列没有语法错误时,输出“未发现语法错误”检测信息;当字符序列存在相应语法错误时,输出相应的语法错误信息。
调用步骤S200获取的所述字符序列的自然语言语法结构分析结果,将其作为输入,通过语法检测算法可以检测判断所述字符序列是否有语法错误;和/或通过检索预定的例句库检测判断所述字符序列是否有语法错误。
所述语法检测算法是基于计算机自动将所述字符序列的自然语言语法结构分析结果与自然语言的语法标准规则有限合集内的有限多条语法规则进行逐一核对。当逐一核对后所述字符序列的自然语言语法结构分析结果满足所述自然语言的语法标准规则有限合集内的全体规则时,判断所述字符序列没有语法错误,将所述字符序列的自然语言语法结构分析结果保存到例句库内,并在人机交互界面上展示“未发现语法错误”这一检测信息;当在逐一核对后所述字符序列的自然语言语法结构分析结果与所述自然语言的语法标准规则有限合集内的某一规则不符时,判断所述字符序列有语法错误,指明语法错误的位置,并通过计算机内的语法纠正算法或者检索预定的例句库对所述字符序列的语法错误进行自动纠正。此外,还可以通过检索预定的例句库对所述字符序列进行补充说明,以便使用者可以获得与所述字符序列相关的语言知识注释,提高使用效率。所述的语法标准规则有限合集,既可以通过人为设定构造出来,又可以通过机器学习的方法从特定的语料库中提炼出来。
可选地,上述两种获取方法可以进行结合。例如,先在例句库中进行检测,查找输入或选择的字符序列是否是例句库中已经存在的例句,如果不是,再调用语法检测算法或语法纠正算法来获取对应的检测信息。
例如将图2所示的自然语言语法结构分析结果,通过语法检测算法可以判断该语句没有语法错误。其可以通过如图3所示的图示方式进行展示。
以英文语句“I am like shopping.”为例,通过句法分析算法获得其对应的自然语言语法结构分析结果为:I是主语,am是谓语中的助动词,like是谓语中的实义动词,shopping是宾语。将“I am like shopping.”的自然语言语法结构分析结果通过语法检测算法可以判断该语句有语法错误。其错误为:助动词am是多余的。通过语法纠正算法可以纠正前述的语法错误。其修改方法为:删去多余的am。纠正结果为:I like shopping。对于前述的语法错误,可以进一步补充说明:在英语中,be+do结构(助动词be与动词原形的联合),不能直接构成一个独立的、完整的谓语动词。其可以通过如图6所示的图示方式进行展示。
在本实施例中,获取的具有语法错误的字符序列可以通过如下三种方法进行改正以获得正确的字符序列。具体地,计算机获取字符序列后,根据计算机内设定的程序进行相应的自动化处理,包括:
(1)替换词:计算机通过遍历语法标准规则有限合集内的多条规则,确定字符序列所违反的规则后进行处理;
例如:You aren’t like the car.
aren’t like违反规则:do+not+VB(助动词do、否定性副词not、动词原形like的联合)。注:VB是计算语言学符号,含义为动词原形。在英语中,be+not+do结构(助动词be、否定性副词、动词原形的联合),不能直接构成一个独立的、完整的谓语动词。依据规则do+not+VB,将aren’t替换为:do not。字符序列改为:You do not like the car.
(2)删除词:计算机通过遍历语法标准规则有限合集内的多条规则,确定字符序列所违反的规则后进行处理;
例如:I am like the car.
am like违反规则:NP+VBP+NP。注:VBP是计算语言学符号,含义为动词一般现在时的非第三人称单数形式;NP是计算语言学符号,含义为名词短语。在英语中,be+do结构(助动词be和动词原形的联合),不能直接构成一个独立的、完整的谓语动词。因此,be+do结构不能作为VBP。I是一个NP,the car是一个NP。依据规则NP+VBP+NP,将am删除。字符序列改为:I like the car.
(3)添加词:
预先构造一个包含正确句子的例句库。对于语法规则集合K中的任意给定的一条规则α,都预先给定一组符合规则α的例句集合A,设例句集合A包括句子Sα1,Sα2,......,Sαn。
如果经过检查,字符序列不能满足语法规则集合K中的某一条语法规则β,那么:按照逐词对应的标准,计算字符序列与符合规则β的例句Sβ1,Sβ2,......,Sβn的相似度,并提取例句Sβ1,Sβ2,......,Sβn中的相似度最高的句子(设为Sβt)或相似度最高的句子组(设为Sβt1,Sβt2,......,Sβtm)。
可以将相似度最高的句子(设为Sβt)或相似度最高的句子组(设为Sβt1,Sβt2,......,Sβtm),作为备选的纠正结果全部展示在人机交互界面上。用户可以参照展示的句子或句子组,对所述字符序列进行进一步的具体修改,以获得唯一正确的字符序列。
例如:like the car.
like the car违反规则:NP+VBP+NP,注:VBP是计算语言学符号,含义为动词一般现在时的非第三人称单数形式;NP是计算语言学符号,含义为名词短语。
规则NP+VBP+NP对应例句集合A,例句集合A包括句子:
Sβ1=I like the book.(经计算,字符序列与该句的相似度为50%)
Sβ2=I have a car.(经计算,字符序列与该句的相似度为25%)
Sβ3=I have the book.(经计算,字符序列与该句的相似度为25%)
Sβ4=I like a car.(经计算,字符序列与该句的相似度为50%)
Sβ5=I like the car.(经计算,字符序列与该句的相似度为75%)
Sβ6=You like the car.(经计算,字符序列与该句的相似度为75%)
Sβ7=You like the book.(经计算,字符序列与该句的相似度为50%)
Sβ8=Tom like the car.(经计算,字符序列与该句的相似度为75%)
Sβ9=Tom like the book.(经计算,字符序列与该句的相似度为50%)
Sβ10=Tom like a book.(经计算,字符序列与该句的相似度为25%)
经过计算,字符序列like the car与符合规则NP+VBP+NP的例句集合Sβ1-Sβ10中的相似度最高的句子为Sβ5,Sβ6,Sβ8。
可以将相似度最高的句子组Sβ5,Sβ6,Sβ8,全部展示在人机交互界面上。
然后用户可以参照展示的句子组Sβ5,Sβ6,Sβ8,对所述字符序列进行进一步的具体修改,以便获得唯一正确的字符序列。
用户可以参照展示的句子Sβ5,在字符序列like the car的句首添加I。字符序列改为:“I like the car.”。从而获得唯一正确的字符序列。
用户可以参照展示的句子Sβ6,在字符序列like the car的句首添加You。字符序列改为:“You like the car.”。从而获得唯一正确的字符序列。
用户可以参照展示的句子Sβ8,在字符序列like the car的句首添加Tom。字符序列改为:“Tom like the car.”。从而获得唯一正确的字符序列。
步骤S400、在人机交互界面上展示所述字符序列的自然语言语法结构分析结果。
在本实施例中,对于没有语法错误的字符序列可以获得三种信息在人机交互界面上进行展示,可以通过跳转的方式依次进行展示。所述三种信息包括所述字符序列的自然语言语法结构分析结果、“未发现语法错误”检测信息以及所述字符序列相关的语言知识注释。因此,对于当输入或选择的字符序列没有语法错误时,在人机交互界面上进行展示时,可以有如下的组合方式:
1、在人机交互界面上同时显示字符序列的自然语言语法结构分析结果以及“未发现语法错误”检测信息,如图3所示。
2、在人机交互界面上同时显示字符序列的自然语言语法结构分析结果以及与所述字符序列相关的语言知识注释,如图4所示。
3、在人机交互界面上同时显示字符序列的自然语言语法结构分析结果、“未发现语法错误”检测信息以及与所述字符序列相关的语言知识注释,如图5所示。
对于存在语法错误的字符序列在进行展示时,可以展示其全部的检测信息和字符序列的自然语言语法结构分析结果,也可以仅展示其中的两种或三种。也就是说,在本步骤展示的信息可以有如下的组合方式:
1、在人机交互界面上同时展示所述字符序列的自然语言语法结构分析结果、与所述自然语言语法结构分析结果对应的语法错误、所述语法错误的纠正结果,以及与所述字符序列相关的语言知识注释,如图6所示。
2、在人机交互界面上同时展示所述字符序列的自然语言语法结构分析结果、与所述自然语言语法结构分析结果对应的语法错误和所述语法错误的纠正结果,如图7所示。
3、在人机交互界面上同时展示所述字符序列的自然语言语法结构分析结果、与所述自然语言语法结构分析结果对应的语法错误以及与所述字符序列相关的语言知识注释,如图8所示。
4、在人机交互界面上同时展示与所述字符序列的自然语言语法结构分析结果、所述语法错误的纠正结果,以及与所述字符序列相关的语言知识注释,如图9所示。
5、在人机交互界面上同时展示所述字符序列的自然语言语法结构分析结果和与所述自然语言语法结构分析结果对应的语法错误,如图10所示。
6、在人机交互界面上同时展示字符序列的自然语言语法结构分析结果和所述语法错误的纠正结果,如图11所示。
7、在人机交互界面上同时展示字符序列的自然语言语法结构分析结果以及与所述字符序列相关的正确语言知识注释,如图12所示。
其中,自然语言语法结构分析结果通过树状图的方式来展示,与所述自然语言语法结构分析结果对应的语法错误的检测结果、所述语法错误的纠正结果以及与所述字符序列相关的语言知识注释通过与原句对应的方式来展示。应理解,对于与字符序列相关信息的展示并不限于图4所示的方式。例如,语法结构分析结果还可以通过色块或图形对语句成分进行划分来展示,展示方式可以采用中国专利:
CN201430409485.0、CN201530039623.5、CN201530039752.4、CN201530039825.X、CN201530081369.5、CN201530082957.0、CN201530081240.4、CN201530081326.7、CN201530081423.6、CN201530081320.X、CN201530429601.X、CN201530429590.5、CN201530443773.2、CN201530429602.4、CN201530424224.0、CN201530424225.5、CN201530062518.3、CN201530062522.X、CN201530062600.6、CN201630412188.0、CN201630412186.1、CN201630412187.6中所涉及的展示方式来进行展示。应理解,语法结构分析结果的展示并不限于上述展示方式,也可以采用其它的展示方式,例如列表或带有分隔符的文本方式来展示。同时,语法错误的纠正结果也可以采用不对比的方式来展示。与所述自然语言语法结构分析结果对应的语法错误、以及与所述字符序列相关的语言知识注释,也可以替换为例如纯文本或从树状图中引出的图标的方式来展示。
应理解,除了展示方式外,不同类别的相关信息在人机交互界面上的相互位置关系也可以根据需要进行调整。优选地,多个信息还可以通过依次跳转的方式进行展示。
在一个优选实施例中,用户还可以将错误的检测信息进行人为修改并保存到例句库中,对例句库中的检测信息进行人工更新,使得例句库不断自我完善减少错误,提供学习效率。
为了实现上述功能,所述方法进一步包括:
步骤S500、获取更正信息,所述更正信息与所述字符序列的检测信息对应。
当用户通过计算机获取到所输入的字符序列的检测信息存在错误时,用户可以人为的将错误的检测信息进行修改,并将修改后的更正信息保存在例句库中,对例句库中的检测信息进行更新,以使得再次获得相同的字符序列时,用户可以获得正确的检测信息。
步骤S600、根据所述更正信息更新所述字符序列的检测信息。
如上所述,可以将修改后得到的更正信息存储到例句库中,对例句库中的检测信息进行更新。
由此,在下一次获取到相同的字符序列或字符序列的标识时,获取更新后的检测信息进行展示。
通过获取与自然语言语句对应的字符序列或其标识,根据字符序列或其标识获取对应的自然语言语法结构分析结果,并获取对应的检测信息,最后在人机交互界面上展示所述字符序列的自然语言语法结构分析结果,由此,可以及时的发现自然语言语句存在的错误,并对该错误加以改正,同时还可以有效地展示自然语言语句对应的其他信息,提高展示效果,帮助使用者提高使用效率。
如本领域技术人员将意识到的,本申请的各个方面可以被实现为系统、方法或计算机程序产品。因此,本申请的各个方面可以采取如下形式:完全硬件实施方式、完全软件实施方式(包括固件、常驻软件、微代码等)或者在本文中通常可以都称为“电路”、“模块”或“系统”的将软件方面与硬件方面相结合的实施方式。此外,本申请的方面可以采取如下形式:在一个或多个计算机可读介质中实现的计算机程序产品,计算机可读介质具有在其上实现的计算机可读程序代码。
可以利用一个或多个计算机可读介质的任意组合。计算机可读介质可以是计算机可读信号介质或计算机可读存储介质。计算机可读存储介质可以是如(但不限于)电子的、磁的、光学的、电磁的、红外的或半导体系统、设备或装置,或者前述的任意适当的组合。计算机可读存储介质的更具体的示例(非穷尽列举)将包括以下各项:具有一根或多根电线的电气连接、便携式计算机软盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或闪速存储器)、光纤、便携式光盘只读存储器(CD-ROM)、光存储装置、磁存储装置或前述的任意适当的组合。在本文件的上下文中,计算机可读存储介质可以为能够包含或存储由指令执行系统、设备或装置使用的程序或结合指令执行系统、设备或装置使用的程序的任意有形介质。
计算机可读信号介质可以包括传播的数据信号,所述传播的数据信号具有在其中如在基带中或作为载波的一部分实现的计算机可读程序代码。这样的传播的信号可以采用多种形式中的任何形式,包括但不限于:电磁的、光学的或其任何适当的组合。计算机可读信号介质可以是以下任意计算机可读介质:不是计算机可读存储介质,并且可以对由指令执行系统、设备或装置使用的或结合指令执行系统、设备或装置使用的程序进行通信、传播或传输。
可以使用包括但不限于无线、有线、光纤电缆、RF等或前述的任意适当组合的任意合适的介质来传送实现在计算机可读介质上的程序代码。
用于执行针对本申请各方面的操作的计算机程序代码可以以一种或多种编程语言的任意组合来编写,所述编程语言包括:面向对象的编程语言如Java、Smalltalk、C++等;以及常规过程编程语言如“C”编程语言或类似的编程语言。程序代码可以作为独立软件包完全地在用户计算机上、部分地在用户计算机上执行;部分地在用户计算机上且部分地在远程计算机上执行;或者完全地在远程计算机或服务器上执行。在后一种情况下,可以将远程计算机通过包括局域网(LAN)或广域网(WAN)的任意类型的网络连接至用户计算机,或者可以与外部计算机进行连接(例如通过使用因特网服务供应商的因特网)。
将要理解的是,流程图图例和/或框图的每个块以及流程图图例和/或框图中的块的组合可以由计算机程序指令来实现。这些计算机程序指令可以被提供至通用计算机、专用计算机或其它可编程数据处理设备的处理器,以产生机器,使得(经由计算机或其它可编程数据处理设备的处理器执行的)指令创建用于实现流程图和/或框图块或块中指定的功能/动作的装置。
还可以将这些计算机程序指令存储在可以指导计算机、其它可编程数据处理设备或其它装置以特定方式运行的计算机可读介质中,使得在计算机可读介质中存储的指令产生包括实现在流程图和/或框图块或块中指定的功能/动作的指令的制品。
计算机程序指令还可以被加载至计算机、其它可编程数据处理设备或其它装置上,以使在计算机、其它可编程设备或其它装置上执行一系列可操作步骤来产生计算机实现的过程,使得在计算机或其它可编程设备上执行的指令提供用于实现在流程图和/或框图块或块中指定的功能/动作的过程。
以上所述仅为本申请的优选实施例,并不用于限制本申请,对于本领域技术人员而言,本申请可以有各种改动和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
Claims (10)
1.一种数据处理方法,包括:
获取至少一个字符序列或字符序列的标识,每个字符序列对应于自然语言的一个语句;
获取所述字符序列的自然语言语法结构分析结果;
获取所述字符序列的检测信息,所述检测信息包括与所述自然语言语法结构分析结果对应的语法错误的检测结果;
在人机交互界面上展示所述字符序列的自然语言语法结构分析结果。
2.根据权利要求1所述的数据处理方法,其特征在于,所述检测信息还包括与所述字符序列相关的语言知识注释。
3.根据权利要求2所述的数据处理方法,其特征在于,所述检测信息还包括所述语法错误的纠正结果。
4.根据权利要求3所述的数据处理方法,其特征在于,所述在人机交互界面上展示所述字符序列的自然语言语法结构分析结果包括:
在人机交互界面上同时展示所述检测信息中的至少一种信息和所述字符序列的自然语言语法结构分析结果。
5.根据权利要求1所述的数据处理方法,其特征在于,所述获取所述字符序列的自然语言语法结构分析结果包括:
通过句法分析算法获取所述字符序列的自然语言语法结构分析结果;或者
通过检索预定的例句库获取与所述字符序列匹配的自然语言语法结构分析结果。
6.根据权利要求1所述的数据处理方法,其特征在于,所述获取所述字符序列的检测信息包括:
通过语法检测算法和语法纠正算法进行检测获取对应的检测信息;或者
通过检索预定的例句库进行检测获取对应的检测信息。
7.根据权利要求1所述的数据处理方法,其特征在于,所述在人机交互界面上展示所述字符序列的自然语言语法结构分析结果包括:
以图形方式展示所述字符序列的自然语言语法结构分析结果;和/或
以列表方式展示所述字符序列的自然语言语法结构分析结果;和/或
以文本方式展示所述字符序列的自然语言语法结构分析结果。
8.根据权利要求7所述的数据处理方法,其特征在于,所述在人机交互界面上展示所述字符序列的自然语言语法结构分析结果包括:
以与所述字符序列对比的方式展示所述字符序列的自然语言语法结构分析结果。
9.根据权利要求1所述的数据处理方法,其特征在于,所述方法还包括:
获取更正信息,所述更正信息与所述字符序列的检测信息对应;
根据所述更正信息更新所述字符序列的检测信息。
10.根据权利要求9所述的数据处理方法,其特征在于,所述方法还包括:
在下一次获取到相同的字符序列或字符序列的标识时,获取更新后的检测信息进行展示。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711472949.1A CN108197107A (zh) | 2017-12-29 | 2017-12-29 | 数据处理方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711472949.1A CN108197107A (zh) | 2017-12-29 | 2017-12-29 | 数据处理方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108197107A true CN108197107A (zh) | 2018-06-22 |
Family
ID=62586431
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711472949.1A Pending CN108197107A (zh) | 2017-12-29 | 2017-12-29 | 数据处理方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108197107A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110059317A (zh) * | 2019-04-16 | 2019-07-26 | 深圳市创客传说科技有限公司 | 分级展示语言系统及应用其的计算机、手机、平板电脑 |
WO2020191993A1 (zh) * | 2019-03-22 | 2020-10-01 | 北京语自成科技有限公司 | 一种自然语言句法分析的方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2387031A1 (en) * | 2010-05-14 | 2011-11-16 | Sony Computer Entertainment Inc. | Methods and systems for grammar fitness evaluation as speech recognition error predictor |
CN103365838A (zh) * | 2013-07-24 | 2013-10-23 | 桂林电子科技大学 | 基于多元特征的英语作文语法错误自动纠正方法 |
CN106325537A (zh) * | 2015-06-23 | 2017-01-11 | 腾讯科技(深圳)有限公司 | 信息输入方法及装置 |
CN106610930A (zh) * | 2015-10-22 | 2017-05-03 | 科大讯飞股份有限公司 | 外语写作自动纠错方法及系统 |
CN106776549A (zh) * | 2016-12-06 | 2017-05-31 | 桂林电子科技大学 | 一种基于规则的英语作文语法错误纠正方法 |
CN107301172A (zh) * | 2017-06-22 | 2017-10-27 | 秦男 | 数据处理方法和存储介质 |
-
2017
- 2017-12-29 CN CN201711472949.1A patent/CN108197107A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2387031A1 (en) * | 2010-05-14 | 2011-11-16 | Sony Computer Entertainment Inc. | Methods and systems for grammar fitness evaluation as speech recognition error predictor |
CN103365838A (zh) * | 2013-07-24 | 2013-10-23 | 桂林电子科技大学 | 基于多元特征的英语作文语法错误自动纠正方法 |
CN106325537A (zh) * | 2015-06-23 | 2017-01-11 | 腾讯科技(深圳)有限公司 | 信息输入方法及装置 |
CN106610930A (zh) * | 2015-10-22 | 2017-05-03 | 科大讯飞股份有限公司 | 外语写作自动纠错方法及系统 |
CN106776549A (zh) * | 2016-12-06 | 2017-05-31 | 桂林电子科技大学 | 一种基于规则的英语作文语法错误纠正方法 |
CN107301172A (zh) * | 2017-06-22 | 2017-10-27 | 秦男 | 数据处理方法和存储介质 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020191993A1 (zh) * | 2019-03-22 | 2020-10-01 | 北京语自成科技有限公司 | 一种自然语言句法分析的方法 |
CN110059317A (zh) * | 2019-04-16 | 2019-07-26 | 深圳市创客传说科技有限公司 | 分级展示语言系统及应用其的计算机、手机、平板电脑 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106910501B (zh) | 文本实体提取方法及装置 | |
CN110442869B (zh) | 一种医疗文本处理方法及其装置、设备和存储介质 | |
CN102262632B (zh) | 进行文本处理的方法和系统 | |
JP6583686B2 (ja) | 意味情報生成方法、意味情報生成装置、およびプログラム | |
CN104915340B (zh) | 自然语言问答方法及装置 | |
CN109564589B (zh) | 使用手动用户反馈进行实体识别和链接系统和方法 | |
US9361587B2 (en) | Authoring system for bayesian networks automatically extracted from text | |
US11769003B2 (en) | Web element rediscovery system and method | |
CN110121705A (zh) | 将语用学原理应用于与可视分析交互的系统和方法 | |
WO2020068234A1 (en) | Automated content editor | |
CN107357772A (zh) | 表单填写方法、装置和计算机设备 | |
US20130332812A1 (en) | Method and system to generate a process flow diagram | |
CN106919434A (zh) | 一种代码生成方法及装置 | |
JP5540335B2 (ja) | 自然言語文生成装置及びコンピュータプログラム | |
KR20140119763A (ko) | 사용자 데이터 입력 예측 | |
CN110275963A (zh) | 用于输出信息的方法和装置 | |
CN105701083A (zh) | 文本表示方法和装置 | |
CN109828748A (zh) | 代码命名方法、系统、计算机装置及计算机可读存储介质 | |
CN106202854A (zh) | 规则管理方法、规则管理装置及疾病叙词表生成方法 | |
CN108197107A (zh) | 数据处理方法 | |
JP2022106980A (ja) | クエリ文の生成方法、装置、電子機器及び記憶媒体 | |
CN103473243B (zh) | 生成语义网络服务文档的方法和设备 | |
CN113722436A (zh) | 文本信息提取方法、装置、计算机设备及存储介质 | |
CN112232052A (zh) | 文本拼接方法、装置、计算机设备及存储介质 | |
CN107301172A (zh) | 数据处理方法和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20180622 |
|
RJ01 | Rejection of invention patent application after publication |