CN112036135B - 一种文本处理方法和相关装置 - Google Patents

一种文本处理方法和相关装置 Download PDF

Info

Publication number
CN112036135B
CN112036135B CN202011231200.XA CN202011231200A CN112036135B CN 112036135 B CN112036135 B CN 112036135B CN 202011231200 A CN202011231200 A CN 202011231200A CN 112036135 B CN112036135 B CN 112036135B
Authority
CN
China
Prior art keywords
text
pair
modification
content
error
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011231200.XA
Other languages
English (en)
Other versions
CN112036135A (zh
Inventor
方俊
林炳怀
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202011231200.XA priority Critical patent/CN112036135B/zh
Priority to CN202110200840.2A priority patent/CN113536743B/zh
Publication of CN112036135A publication Critical patent/CN112036135A/zh
Application granted granted Critical
Publication of CN112036135B publication Critical patent/CN112036135B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Medical Informatics (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Machine Translation (AREA)

Abstract

本申请实施例公开了一种文本处理方法和相关装置,至少涉及人工智能中的自然语言处理和机器学习,以及云计算技术中的数据并行计算等,针对待识别的第一文本,对该第一文本进行文本处理,通过对第一文本的至少一处内容修改,将第一文本修改为第二文本。其中,任意一处内容修改对应一个修改对。为了能够确定内容修改对应的语言表达错误类型和错误原因,不仅依据修改对提供的信息,还引入第一文本和第二文本来完善该内容修改在修改前后的完整语境信息,因此,在修改对的基础上,通过结合第一文本和第二文本,为确定修改对的语言表达错误类型及其错误原因提供了较为完整的信息依据,实现了对于文本表达错误类型的准确识别以及具体的错误成因。

Description

一种文本处理方法和相关装置
技术领域
本申请涉及数据处理领域,特别是涉及一种文本处理方法和相关装置。
背景技术
语言是人类进行沟通交流的表达方式,语言具有对应的语法和词汇,是由词汇按一定的语法所构成的语音表义系统。一般来说,各个民族都有自己的语言,例如汉语、英语、德语等,
用户可以通过语言进行书面的文本表达,然而,不论是使用自己的母语还是新学习的语种,都有可能出现语言表达错误,例如语法使用不当、表达不规范的问题。可以通过语言错误识别技术对用户所提供的文本进行错误识别,例如,在教育行业,可以利用语言错误识别技术帮助老师批改学生英语作文。
相关技术中主要采用大量语料去学习语言规律,从而对文本中的错误进行识别和修改,由于这种修改是基于统计得出来的,不仅准确率不高,而且无法给出错误原因。从而导致用户仅能知道文本表达有误,但却难以了解错误的原因。
发明内容
为了解决上述技术问题,本申请提供了一种文本处理方法和相关装置,实现了对于文本表达错误类型的准确识别以及具体的错误成因。
本申请实施例公开了如下技术方案:
一方面,本申请实施例提供了一种文本处理方法,所述方法包括:
获取待识别的第一文本;
对所述第一文本进行文本处理,得到第二文本;
根据所述第一文本和所述第二文本确定至少一个修改对,其中,一个修改对对应于所述文本处理中的一处内容修改,所述修改对包括所述第一文本中对应所述内容修改的内容,以及所述第二文本中对应所述内容修改的内容;
根据所述第一文本、所述第二文本和所述修改对,确定所述内容修改对应的语言表达错误类型和错误原因。
另一方面,本申请实施例提供了一种文本处理装置,其特征在于,所述装置包括获取单元和确定单元:
所述获取单元,用于获取待识别的第一文本;
所述确定单元,用于对所述第一文本进行文本处理,得到第二文本;
所述确定单元,还用于根据所述第一文本和所述第二文本确定至少一个修改对,其中,一个修改对对应于所述文本处理中的一处内容修改,所述修改对包括所述第一文本中对应所述内容修改的内容,以及所述第二文本中对应所述内容修改的内容;
所述确定单元,还用于根据所述第一文本、所述第二文本和所述修改对,确定所述内容修改对应的语言表达错误类型和错误原因。
另一方面,本申请实施例提供了一种用于文本处理的设备,所述设备包括处理器以及存储器:
所述存储器用于存储程序代码,并将所述程序代码传输给所述处理器;
所述处理器用于根据所述程序代码中的指令执行上述方面所述的方法。
另一方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质用于存储计算机程序,所述计算机程序用于执行上述方面所述的方法。
另一方面,本申请实施例提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述方面所述的方法。
由上述技术方案可以看出,针对待识别的第一文本,对该第一文本进行文本处理,通过对第一文本的至少一处内容修改,将第一文本修改为第二文本。其中,任意一处内容修改对应一个修改对,该修改对包括第一文本中对应该内容修改的内容和第二文本中对应该内容修改的内容。为了能够确定内容修改对应的语言表达错误类型和错误原因,不仅依据修改对提供的信息,还引入第一文本和第二文本来完善该内容修改在修改前后的完整语境信息,因此,在修改对的基础上,通过结合第一文本和第二文本,为确定修改对的语言表达错误类型及其错误原因提供了较为完整的信息依据,实现了对于文本表达错误类型的准确识别以及具体的错误成因。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种文本处理方法的应用场景示意图;
图2为本申请实施例提供的一种文本处理方法的流程示意图;
图3为本申请实施例提供的另一种文本处理方法的流程示意图;
图4为本申请实施例提供的一种对齐算法的流程示意图;
图5为本申请实施例提供的一种反馈错误类型的展示示意图;
图6为本申请实施例提供的另一种文本处理方法的应用场景示意图;
图7为本申请实施例提供的另一种文本处理方法的应用场景示意图;
图8为本申请实施例提供的一种文本处理装置的结构示意图;
图9为本申请实施例提供的服务器的结构示意图;
图10为本申请实施例提供的终端设备的结构示意图。
具体实施方式
下面结合附图,对本申请的实施例进行描述。
鉴于相关技术中基于语料学习语言规律的方式无法给出错误原因,本申请实施例提供了一种文本处理方法和相关装置,实现了对于文本错误原因的识别,并提高了语言表达错误类型的识别精度。
本申请实施例提供的文本处理方法是基于人工智能实现的,人工智能(Artificial Intelligence, AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
在本申请实施例中,主要涉及的人工智能软件技术包括上述自然语言处理、机器学习/深度学习等方向。例如,可以涉及自然语言处理(Nature Language processing,NLP)中的文本预处理(Text preprocessing)、语义理解(Semantic understanding),也可以涉及机器学习(Machine learning,ML)中的深度学习(Deep Learning),包括各类人工神经网络(Artificial Neural Network, ANN)。
本申请提供的文本处理方法可以应用于具有数据处理能力的文本处理设备,如终端设备、服务器。其中,终端设备具体可以为智能手机、台式计算机、笔记本电脑、平板电脑、智能音箱、智能手表等,但并不局限于此等;服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云计算服务的云服务器。终端设备以及服务器可以通过有线或无线通信方式进行直接或间接地连接,本申请在此不做限制。
该文本处理设备可以具备实施自然语言处理的能力,自然语言处理(NatureLanguage processing, NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。在本申请实施例中,文本处理设备可以通过自然语言处理中的文本预处理、语义理解等技术对文本进行处理。
该文本处理设备可以具备机器学习能力。机器学习是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络等技术。
在本申请实施例提供的文本处理方法中采用的人工智能模型主要涉及对神经网络的应用,通过神经网络实现对文本进行修改和分析。
此外,本申请实施例提供的文本处理设备还具备云计算能力。云计算(cloudcomputing)指IT基础设施的交付和使用模式,指通过网络以按需、易扩展的方式获得所需资源;广义云计算指服务的交付和使用模式,指通过网络以按需、易扩展的方式获得所需服务。这种服务可以是IT和软件、互联网相关,也可是其他服务。云计算是网格计算(GridComputing )、分布式计算(Distributed Computing)、并行计算(Parallel Computing)、效用计算(Utility Computing)、网络存储(Network Storage Technologies)、虚拟化(Virtualization)、负载均衡(Load Balance)等传统计算机和网络技术发展融合的产物。
随着互联网、实时数据流、连接设备多样化的发展,以及搜索服务、社会网络、移动商务和开放协作等需求的推动,云计算迅速发展起来。不同于以往的并行分布式计算,云计算的产生从理念上将推动整个互联网模式、企业管理模式发生革命性的变革。
在本申请实施例中,文本处理设备可以利用云计算技术,对待识别的文本进行处理,以便根据处理得到的信息确定文本错误类型及其具体的错误成因。
为了便于理解本申请的技术方案,下面结合实际应用场景,以终端设备作为文本处理设备对本申请实施例提供的文本处理方法进行介绍。
参见图1,图1为本申请实施例提供的文本处理方法的应用场景示意图。在图1所示的应用场景中,包括终端设备101,用于对文本错误进行识别和修改,并对语言表达错误类型及错误原因进行解析。
在实际应用中,用户可以在终端设备101所提供的文本错误修改界面输入待识别的第一文本S。例如,在图1所示的场景中,用户输入第一文本S,其组成包括A B C,其中A、B和C分别用于表示组成文本的词。例如第一文本S可以为:believe in you,其中A代表believe,B代表in,C代表you。
然后,对该第一文本S进行文本处理,通过对第一文本S的至少一处内容修改,将第一文本S修改为第二文本T。其中,第一文本S可以是任意语种的文本,例如,英语、法语、俄语等。任意一处内容修改对应一个修改对,该修改对包括第一文本S中对应该内容修改的内容和第二文本T中对应该内容修改的内容。
在图1所示的场景中,若第一文本S为英语,则按照英语表达规则,对第一文本S中至少一处存在错误的内容进行修改,得到第二文本T,为believe in yourself,其中,第二文本T包括A B D,A代表believe,B代表in,D代表yourself。基于此可知,第一文本S中的C被修改为了第二文本中的D,因此,可以确定出一个修改对E,其组成为(C,D),即(you,yourself)。
可以理解的是,第一文本S具有修改前文本的完整语境信息,第二文本T具有修改后文本的完整语境信息,可以作为对内容修改进行分析的信息依据。故此,可以在修改对的基础上,结合第一文本S和第二文本T,确定出上述内容修改对应的语言表达错误类型和错误原因。
在图1所示的场景中,根据第一文本S、第二文本T和修改对E,确定出第一文本S中的C修改为第二文本中的D的语言表达错误类型及其错误原因。其中,C(you)修改为D(yourself)的语言表达错误类型为语法错误,其错误原因为代词使用错误。
基于上述可知,在修改对的基础上,通过结合第一文本和第二文本,为确定修改对的语言表达错误类型及其错误原因提供了较为完整的信息依据,实现了对于文本表达错误类型的准确识别以及具体的错误成因。
下面结合附图,以终端设备作为文本处理设备,对本申请实施例提供的一种文本处理方法进行介绍。
参见图2,图2为本申请实施例提供的一种文本处理方法的流程示意图。如图2所示,该文本处理方法包括以下步骤:
S201:获取待识别的第一文本。
在实际应用中,用户可以在终端设备所提供的文本处理界面,输入待识别的第一文本S。终端设备通过预先部署的序列到序列语法纠错模型(记为Seq-decoder)接收该第一文本S,并执行下续步骤。
第一文本S是指由多个词组成的具有特定含义的文本,其存在形式包括但不限于:句子、段落、文章。此外,第一文本S可以是任意语种的语言,例如,汉语、英语、日语等,在此不做任何限定。
S202:对所述第一文本进行文本处理,得到第二文本。
如图3所示,输入(301)为第一文本S(302),序列到序列语法纠错模型(303)接收到待识别的第一文本S后,对第一文本S存在语言表达错误的地方进行修改,得到第二文本T(304),作为序列到序列语法纠错模型的输出,并作为终端设备中预先部署的序列到序列对齐模型(记为Seq-align)(305)输入。
序列到序列(Sequence to Sequence, Seq2seq)模型是指根据需求将一个序列转换为另一个序列的深度学习模型。上述序列到序列语法纠错模型就是一种用于语言表达纠错的序列到序列模型,是基于深度学习方法得到的,其作用在于在不改变第一文本S的语意的前提下,对第一文本S进行修改,使其从语法或表达习惯上变为更加规范合理的第二文本T。
在实际应用中,可以将不同语种的第一文本S作为序列到序列语法纠错模型的输入,根据第一文本S的语种,并按照该语种表达规范,对第一文本S存在语言表达错误的地方进行修改,得到第二文本T。其中,第一文本S的语种可以是英语、俄语、法语等。
需要说明的是,在对第一文本进行修改过程中,使用上述序列到序列语法纠错模型可以实现,也可以基于其他类型的模型实现同样的功能,在此不作任何限定。
S203:根据所述第一文本和所述第二文本确定至少一个修改对。
如图3所示,对第一文本S进行修改得到第二文本T后,将第一文本S和第二文本T作为序列到序列对齐模型的输入,然后将第一文本S和第二文本T中的内容进行内容对比,确定出至少一个修改对E(306)。
一个修改对E对应于所述文本处理中的一处内容修改,所述修改对包括所述第一文本S中对应所述内容修改的内容,以及所述第二文本T中对应所述内容修改的内容。需要说明的是,上述一处内容修改是基于第一文本S中存在的一处语言表达错误所确定的,包括但不限于一个词、多个词组成的词组或者一个句子等。
例如,第一文本S为This is less expensive sweater in store,对应的第二文本T为This is the least expensive sweater in the store。对比第一文本S和第二文本T可知,第一文本S中的比较级使用错误,应该为最高级,即将“less”修改为“the least”,故此,可以确定出一个修改对E=(less, the least)。
上述序列到序列对齐模型用于对修改前的第一文本S和修改后的第二文本T进行对齐,并获得修改对E。一般的,修改对E所对应内容修改的改动方式包括替换(Replace,Re)、插入(Insert, In)、删除(Delete, De)和相等(Equal, Eq)。基于此,上述例子中第一文本S中的“less”被替换成“the least”,则修改对可以记为E=(less, the least, Re)。另外,在第一文本S“in store”中插入了“the”,则还存在修改对E=(in store, in thestore, In)。
针对上述确定修改对的过程,在一种可能的实现方式中,可以以第一比对粒度对第一文本S和第二文本T进行内容比对,得到对应的第一比对序列。其中,内容比对是指基于第一文本S和第二文本T中的内容表达意思相同或相近的比对方式。第一比对粒度是指进行内容比对的最小单元,如:句子、词组、单个词等。第一比对序列中包括第一内容对,第一内容对用于标识所述第一文本和所述第二文本间对应的一对文本字符串,以及这对文本字符串对应的改动方式。
对上述例子而言,若以词组作为第一比对粒度,对上述第一文本S和第二文本T进行内容比对,可以得到多个文本字符串,如:E=(in the store, in the store, Eq)。
在一种可能的实现方式中,可以通过对齐算法以第一比对粒度对所述第一文本和所述第二文本进行内容比对,得到对应的第一比对序列。
其中,对齐算法可以为莱文斯坦(Levenshtein)算法,莱文斯坦算法是一种计算两个序列的相识度的方法,它可以给出从一个序列,通过一系列变化,转换为另一序列。在实际应用中,也可以采用其他算法,在此不作任何限定。
需要说明的是,第一内容对包括至少一对文本字符串,且第一内容对所包括的一对文本字符串具有相同的改动方式。在一些情况下,存在不同错误的两对文本字符串,若这两对具有相同改动方式的文本字符串相邻,在基于上述内容比对的方式确定第一内容对时,会将这两对文本字符串确定为同一个第一内容对,由此造成同一文本中的多个错误耦合在一起的问题,影响后续确定内容修改对应的语言表达错误类型和错误原因的准确性。
例如,第一文本S为:Nowadays, more and more the middle-aged people aresuffering for insomenia, 第二文本T为:Nowadays, more and more middle-agedpeople are suffering from insomnia。对比第一文本S和第二文本T可知,“the”被删除,“for”被替换为“from”,而“insomenia”被替换为“insomnia”。在基于内容对比方式确定第一内容对时,由于第一文本S中的“for”和“insomenia”相邻,且改动方式都为替换,故此可以确定出一个第一内容对,包括E=(the, , De)、E=(for insomenia, from insomnia,Re)。尽管E=(for insomenia, from insomnia, Re)中的两对文本字符串的改动方式相同,但是,“for”被替换为“from”的原因是与“suffer”的搭配错误,而“insomenia”被替换为“insomnia”的原因是拼写错误,故此,将这两对文本字符串作为一个整体进行语言表达错误类型及错误原因的分析是不合适的。
鉴于此,可以以第二比对粒度,对上述第一比对序列中的第一内容对进行拆分得到第二比对序列。其中,所述第二比对序列包括第二内容对,所述第二内容对用于标识所述第一文本和所述第二文本对应的一对文本字符串,以及这对文本字符串对应的改动方式。其中,第二比对粒度是指对第一内容对进行拆分的最小单元,且第二比对粒度小于上述第一比对粒度,如:若第一比对粒度为句子,第二比对粒度可以为词组、单个词;若第一比对粒度为词组,则第二比对粒度可以为单个词。改动方式包括替换、插入、删除或相等中的任意一种。继而,可以根据所述第二比对序列确定出至少一个修改对。
对于上述例子中改动方式为替换的内容对(for insomenia, from insomnia,Re),以单个词为第二比对粒度进行拆分可以得到第二比对序列,如:E=(Nowadays,Nowadays, Eq)、E=(for, from, Re)、(insomenia, insomnia, Re)。
上述在利用序列到序列模型的语法纠错能力基础上,利用对齐算法对模型做出的修改确定出内容对,并做出进一步地拆分,降低了第一比对序列中多错误耦合的情况,为后续反馈准确的语言表达错误类型及错误原因奠定了基础,提高了对于内容修改对应的语言表达错误类型和错误原因的识别精度。
可以理解的是,上述第二内容对是基于第二比对粒度的改动方式确定的,这种方式与本申请想要找出第一文本中存在语言表达错误的内涵并不等同。具体来讲,改动方式是指对文本进行修改的方式,关注点在于执行修改这一动作的方式,包括替换、删除、插入等。而语言表达是指文本所属语种表达规则,包括语法结构、文本表达含义等。基于此可知,改动方式与语言表达是不完全等同的。若仅依赖于第二内容对的改动方式确定内容修改对应的语言表达错误类型和错误原因,无法准确地从语言表达角度对修改对进行分析,从而影响内容修改对应的语言表达错误类型及错误原因的准确性。
故此,本申请提供了一种可能的实现方式,即根据上述第二比对序列中第二内容对的改动方式,确定改动方式标识为修改的目标内容对,然后将第二比对序列中符合预设规则的相邻目标内容对进行合并得到第三比对序列。
其中,第二比对序列的改动方式包括:替换(Re)、插入(In)、删除(De)或相等(Eq)中的任意一种。第三比对序列中包括通过对相邻目标内容对合并得到所述修改对,通过合并得到的修改对的改动方式是根据合并方式确定的。预设规则是指合并对对应的改动方式所满足规则。
例如,第一文本S为:In no case you should give up,第二文本T为:In no caseshould you give up。首先,以第一比对粒度(即以句子为粒度对比),确定出一个第一内容对:(you should, should you),然后,以第二比对粒度(即以单个词为粒度),确定出第二内容对(you, should, Re)和(should, you, Re)。由于这两个第二内容对符合词与词位置交换规则,故此,可以将这两个第二内容对合并,即得到修改对E=(you should, shouldyou)。
上述通过预设规则将第二内容对的改动方式与内容修改的语言表达错误类型建立起关联,对相邻内容对进行整合,增加了更多维度的改动方式,提高了判断内容修改对应的语言表达错误类型和错误原因的精度,优化了上述对齐算法,达到了去噪的效果。
对于上述通过合并确定出修改对可以发现,第三比对序列中修改对的改动方式包括:交换(Switch, Sw)。故此,上述例子中确定出的修改对可以记为E=(you should,should you, Sw)。
由此可知,可以基于预设规则对第二比对序列中的内容对进行合并,对上述对齐算法做出优化,进一步地提高了后续利用修改对确定其对应的语言表达错误类型和错误原因的准确度。
在实际应用中,序列到序列对齐模型可以将改动方式不为相等(Eq)的修改对进行输出,并作为终端设备中预先部署的错误详情处理模型(记为Err-identify)(307)的输入,对其语言表达错误类型和错误原因进行分析。
S204:根据所述第一文本、所述第二文本和所述修改对,确定所述内容修改对应的语言表达错误类型和错误原因。
如图3所示,错误详情处理模型将第一文本S、第二文本T和修改对E作为输入,分析并反馈内容修改对应的语言表达错误类型和错误原因(308),并作为输出(309)。其中,错误详情处理模型用于对序列到序列对齐模型输出的修改对进行错误类型判断,并对判断结果进行分析,返回分析结果,其中,分析结果包括语言表达错误类型和错误原因。
可以理解的是,语言是由不同的词组成的具有特定含义的句子,单个词的意思及其在句子中的位置具有重要的作用。故此,在确定内容修改对应的语言表达错误类型和错误原因之前,还可以对第一文本和第二文本中的分词进行词性标注,并结合分词所标注的词性,共同确定内容修改对应的语言表达错误类型和错误原因。
其中,词性是指单个词在一定的词类系统中的类别归属。一个词的词性是由一定的词类系统和该词自身的语法特性两方面决定的。在本实施例中,词性包括但不限于,词的含义,词所属类别(动词、名词、形容词等)以及词的语法结构(主语、谓语、宾语等)。
例如,对于第一文本S为:I like fish中的fish,其对应的词性标注可以包括:fish的含义为鱼、fish在第一文本S中的所属类别为名词、fish在第一文本S中的语法结构为宾语。
因此利用错误详情模块确定内容修改对应的语言表达错误类型和错误原因时,在引入了第一文本和第二文本的基础上,还引入了词性信息,进一步地完善了确定内容修改对应的语言表达错误类型和错误原因的信息依据,从而在不需要构建大量规则的基础上,提高了对于内容修改的语言表达错误类型和错误原因的准确性。
基于上述,在一种可能的实现方式中,上述语言表达错误类型包括优化表达或者至少一个类型的语法错误。或者说,错误详情处理模型的输出包括:修改等级(Grade)、修改类型(Type)和错误原因(Reason)。这里的修改等级是指优化表达和语法错误。其中,优化表达是指第一文本S不存在语法错误,但在语言表述方面可以进一步优化。而语法错误是指第一文本S不符合第一文本所属语种的语言规范。而修改类型是指不同类型的语法错误,错误原因则是根据具体情况,对修改产生的原因进行分析。
在实际应用中,可以基于预设规则,利用第一文本S、第二文本T、修改对E以及词性标注,区分出内容修改对应的语言表达错误类型是优化表达还是不同类型的语法错误。
例如,第一文本S为:Your dog runs faster than Jim's,利用序列到序列语法纠错模型对该第一文本S进行文本处理,得到第二文本T为:Your dog runs faster thanJim's dog。由此,基于预设规则,利用第一文本S、第二文本T、修改对E=(, dog, In)以及词性标注,可以确定出第二文本T更符合英语书面表达规范,故此,修改对E=(, dog, In)的语言表达错误类型为优化表达。
其中,错误详情处理模型在确定内容修改对应的语言表达错误类型和错误原因时,数据处理流程如下:
1、针对输入的修改对E及其第一文本S和第二文本T,判断该修改对E是何种类型的修改,即确定修改对的修改类型(Type),其中可能用到的方法包括语法分析等。其中,语法分析是指根据利用词语间的依赖关系,解析文本的语法结构。
2、判断在第一文本S和第二文本T的前提下,这个修改对E的修改等级(Grade)是优化表达,还是语法错误。
3、根据第一文本S和第二文本T,修改等级(Grade)及修改类型(Type),生成对应的错误原因(Reason)。
至此,将第一文本S输入后,可以得到修改后的第二文本T,以及每一个修改对E对应的修改等级、修改类型和错误原因(Grade, Type, Reason),如图3所示。
在对文本中存在的语言表达进行文本处理的过程中,利用对齐算法,并对第二内容对进行拆分及合并,将每处内容修改独立出来,并结合每处内容修改所包括第二内容对的词性信息,实现了对于内容修改属于语法错误还是优化表达的区分,并实现了对于内容修改对应的错误原因的分析与反馈。
在确定出内容修改对应的语言表达错误类型和错误原因后,还可以在第一文本S和第二文本T的基础上展示所述内容修改,以及展示对应的判定结果。其中,判定结果包括内容修改对应的语言表达错误类型和错误原因。基于此,用户可以直接地查看到文本处理结果,提高了用户的使用体验。
上述实施例提供的文本处理方法,针对待识别的第一文本,对该第一文本进行文本处理,通过对第一文本的至少一处内容修改,将第一文本修改为第二文本。其中,任意一处内容修改对应一个修改对,该修改对包括第一文本中对应该内容修改的内容和第二文本中对应该内容修改的内容。为了能够确定内容修改对应的语言表达错误类型和错误原因,不仅依据修改对提供的信息,还引入第一文本和第二文本来完善该内容修改在修改前后的完整语境信息,因此,在修改对的基础上,通过结合第一文本和第二文本,为确定修改对的语言表达错误类型及其错误原因提供了较为完整的信息依据,实现了对于文本表达错误类型的准确识别以及具体的错误成因。
为了更好的理解本申请实施例文本处理方法,下面结合图4,对上述利用序列到序列对齐模型对第一文本S和第二文本T,确定修改对的过程进行具体介绍。
如图4所示,序列到序列语法纠错模型获取到待识别的第一文本S,其具体组成包括:A C B D Eed F,根据其语种,对第一文本S进行文本处理,得到第二文本T,为:A B C DE G,并将第一文本S和第二文本T作为序列到序列对齐模型的输入(401)。
在序列到序列对齐模型利用第一文本S和第二文本T确定修改对E的过程中,首先使用莱文斯坦模块(402),利用莱文斯坦算法,以句子作为第一比对粒度,对第一文本S和第二文本T进行内容对比,得到对应的第一比对序列,其中包括6个第一内容对,分别为:(A,A, Eq)、(, B, In)、(C, C, Eq)、(B, , De)、(D, D, Eq)和(Eed F, E G, Re)。
然后,使用拆分模块(403),以单个词作为第二比对粒度,对上述6个第一内容对进行拆分得到第二比对序列,其中包括7个第二内容对,分别为:(A, A, Eq)、(, B, In)、(C,C, Eq)、(B, , De)、(D, D, Eq)、(Eed, E, Re)和(F, G, Re)。
继而,使用合并模块(404),依次将上述第二比对序列中的第二内容对作为目标内容对,判断目标内容对与其相邻内容对是否符合预设规则。对于上述包括7个第二内容对的第二比对序列,当目标内容对为(, B, In)时,其相邻内容对(C, C, Eq)以及后续内容对(B, , De)符合改动方式为交换的规则,因此,将这3个内容对进行合并,并记为(CB, BC,Sw)。基于此,可以得到第三比对序列,其中包括5个修改对,分别为:(A, A, Eq)、(CB, BC,Sw)、(D, D, Eq)、(Eed, E, Re)和(F, G, Re)。
因此,使用输出模块(405),将第三比对序列中改动方式不为相等(Eq)的修改对进行输出,即序列到序列对齐模型的输出包括3个修改对,分别为:(CB, BC, Sw)、(Eed, E,Re)和(F, G, Re)。
将上述输出的3个修改对作为错误详情处理模型的输入,并逐个分析每个修改对对应的语言表达错误类型及错误原因。
上述实施例提供的序列到序列对齐模型,在序列到序列语法纠错模型的输出基础上,利用对齐算法,对修改前的第一文本和第二文本进行内容比对,并进一步对内容比对得到的内容对进行拆分和合并,为后续利用错误详情处理模型识别内容修改对应的语言表达错误类型和错误原因奠定了基础,提高了对于文本错误类型判断的精度。
下面结合具体的例子,对上述实施例提供的文本处理方法进行介绍。
在图5所示的场景中,若用户输入待识别的第一文本S为:His sister is youngerfive years than he,则使用序列到序列语法纠错模型阶段,将该第一文本S作为输入,根据该第一文本S的语种为英语,按照英语表达规则,对第一文本S进行英语表达方面的修改,输出第二文本T为:His sister is five years younger than him.
然后,使用序列到序列对齐模型,将上述第一文本S和第二文本T作为模型的输入,按照图4所示的流程,对第一文本S和第二文本T进行比对,输出包括了2个修改对的第三比对序列,分别为:(younger five years, five years younger, Sw)和(he, him, Re)。
继而,使用错误详情处理模块,对上述2个修改对进行错误类型判断。具体的,将第一文本S、第二文本T、上述2个修改对以及词性标注作为输入,分别确定出这2个修改对各自对应的语言表达错误类型和错误原因。其中,修改对(younger five years, five yearsyounger, Sw)对应的语言表达错误类型是语序错误,错误原因为:语序错误,请确认此句表达是否存在倒装、疑问或者表达习惯差异导致的语序问题。修改对(he, him, Re)对应的语言表达错误类型是代词使用错误,错误原因为:代词可能使用错误,请结合第一文本和第二文本选择合适额。此处建议将he改为him。故此,可以将这2处内容修改及其对应的判定结果反馈给用户,并展示给用户查看,如图5所示。
上述实施例提供的文本处理方法,利用序列到序列语法纠错模型对第一文本进行修改,相对于传统基于规则的语法纠错模型,实现了对具有语言表达错误的句子的高准确率,高召回率的修改。此外,利用优化后的对齐算法和基于第一文本和第二文本的语法分析和词性标注,实现了对每一处内容修改对应的语言表达错误类型做出了判断,并生成了针对每一处内容修改对应的错误原因分析,由此实现了从知其然到知其所以然的跃变。
需要说明的是,本申请实施例提供的文本处理方法可以广泛应用于教育行业、企业办公等不同的场景中。例如,在教育行业,文本处理方法可以帮助老师减轻批改作业的负担,还可以帮助学生在没有老师介入的前提下,自主定位作业中的语言表达错误,优化自己的作业,从而提升作业质量。例如,对于老师批改学生英语作业的场景,老师在检查学生英语写作作业的过程中,可以利用本申请实施例提供的文本处理系统自动修改学生的写作作业,并给出每一处内容修改对应的语言表达错误类型和错误原因,使得学生能够清楚英语写作作业中存在语言表达上的错误之处,及其对应的正确表达和错误原因,减轻了老师批改学生作业的负担。在学生日常学习外语的场景中,学生也可以自主使用所述文本处理系统,对自己的外语作业进行检查和修改。或者,在双语者专业写作的场景中,帮助双语者,提升语言水平。
为了更好的理解本申请实施例提供的文本处理方法,下面以英语作文打分模型与本申请所述文本处理方法相结合,形成一个打分反馈系统,帮助学生提升英语写作能力的场景为例,对本申请实施例提供的文本处理方法进行介绍。其中,文本处理方法涉及到上述序列到序列语法纠错模型、序列到序列对齐模型和错误详情处理模型。
如图6所示,学生可以将写好的英语作文输入到英语作文打分反馈系统的入口,即图6所示方框内的左侧英文部分。其中,学生输入英语作文的方式可以包括:键盘输入、语音输入、图像识别输入等,实际应用过程可以根据具体场景确定,在此不作任何限定。一般的,等待数秒后,打分反馈系统通过输入入口右侧展示区展示该英语作文对应的得分和纠错详情。在图6所示的场景中,得分包括:内容分、结构分、句子分和词汇分。学生根据此处展示的分数可以大致知道该篇英语作文的水平质量。
在应用过程中,可以将利用上述文本处理方法得到英文作文对应的输出结果作为纠错详情的输出,并作为英文作文模型的输入,对英文作文进行打分,得到该篇英文作文的得分。其中,得分的高低受到文本处理结果的影响。例如,文本处理结果包括:英文作文中某一句子中存在的错误类型为单词错误,且该错误原因为单词词性使用错误,由此按照预设规则扣除该篇英语作文一定的词汇分和句子分。
此外,纠错详情展示包括该英语作文中存在错误的地方,进行修改,并给出对应的语言表达错误类型及错误原因。如图7所示,对于左侧窗口输入的英语作文中第一段第一句话“Do you know what kind of animal I like most”,根据右侧纠错展示区可知,该句中存在语言表达错误的地方,即“most”前面缺少冠词“the”,应插入为“the”,即修改后的句子为“Do you know what kind of animal I like the most”并给出对应的语言表达错误类型:缺少冠词或者限定词“the”,以及对应的错误原因:冠词建议,使用合适的定冠词优化句子。此处建议插入the。
上述实施例提供了一种文本处理方法的应用场景,在英语写作批改过程中,使得用户可以在不需要专业人员的帮助下,自主发现在语法语言方面的不足,提高自己的语言表达水平。
针对上述实施例提供的文本处理方法,本申请实施例还提供了一种文本处理装置。
参见图8,图8为本申请实施例提供的一种文本处理装置。如图8所示,该文本处理装置800,包括获取单元801和确定单元802:
所述获取单元801,用于获取待识别的第一文本;
所述确定单元802,用于对所述第一文本进行文本处理,得到第二文本;
所述确定单元802,还用于根据所述第一文本和所述第二文本确定至少一个修改对,其中,一个修改对对应于所述文本处理中的一处内容修改,所述修改对包括所述第一文本中对应所述内容修改的内容,以及所述第二文本中对应所述内容修改的内容;
所述确定单元802,还用于根据所述第一文本、所述第二文本和所述修改对,确定所述内容修改对应的语言表达错误类型和错误原因。
在一种可能的实现方式中,所述确定单元802,用于:
对所述第一文本和所述第二文本中的分词进行词性标注;
根据所述第一文本、所述第二文本、所述修改对和所标注的词性,确定所述内容修改对应的语言表达错误类型和错误原因。
在一种可能的实现方式中,所述语言表达错误类型包括优化表达或至少一个类型的语法错误。
在一种可能的实现方式中,所述确定单元802,用于:
以第一比对粒度对所述第一文本和所述第二文本进行内容比对,得到对应的第一比对序列;所述第一比对序列中包括第一内容对,所述第一内容对用于标识所述第一文本和所述第二文本间对应的一对文本字符串,以及这对文本字符串对应的改动方式;
以第二比对粒度对所述第一比对序列中的第一内容对进行拆分得到第二比对序列;所述第二比对序列包括第二内容对,所述第二内容对用于标识所述第一文本和所述第二文本间对应的一对文本字符串,以及这对文本字符串对应的改动方式,所述第二比对粒度小于所述第一比对粒度;
根据所述第二比对序列确定所述至少一个修改对。
在一种可能的实现方式中,所述确定单元802,用于:
根据所述第二比对序列中第二内容对的改动方式,确定改动方式标识为修改的目标内容对;
将所述第二比对序列中符合预设规则的相邻目标内容对进行合并得到第三比对序列;所述第三比对序列中包括通过对所述相邻目标内容对合并得到所述修改对,通过合并得到的所述修改对的改动方式是根据合并方式确定的。
在一种可能的实现方式中,所述第二比对序列中第二内容对的改动方式包括替换、插入、删除或相等中的任意一种;所述第三比对序列中修改对的改动方式包括交换。
在一种可能的实现方式中,所述确定单元802,用于通过对齐算法以第一比对粒度对所述第一文本和所述第二文本进行内容比对,得到对应的第一比对序列。
在一种可能的实现方式中,所述装置还包括展示单元;
所述展示单元,用于在所述第一文本和所述第二文本的基础上展示所述内容修改,以及展示对应的判定结果;所述判定结果包括所述语言表达错误类型和所述错误原因。
上述实施例提供的文本处理装置,针对待识别的第一文本,对该第一文本进行文本处理,通过对第一文本的至少一处内容修改,将第一文本修改为第二文本。其中,任意一处内容修改对应一个修改对,该修改对包括第一文本中对应该内容修改的内容和第二文本中对应该内容修改的内容。为了能够确定内容修改对应的语言表达错误类型和错误原因,不仅依据修改对提供的信息,还引入第一文本和第二文本来完善该内容修改在修改前后的完整语境信息,因此,在修改对的基础上,通过结合第一文本和第二文本,为确定修改对的语言表达错误类型及其错误原因提供了较为完整的信息依据,实现了对于文本表达错误类型的准确识别以及具体的错误成因。
本申请实施例还提供了一种用于文本处理的设备,下面将从硬件实体化的角度对本申请实施例提供的用于文本处理的设备进行介绍。
参见图9,图9是本申请实施例提供的一种服务器结构示意图,该服务器1400可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(centralprocessing units,CPU)1422(例如,一个或一个以上处理器)和存储器1432,一个或一个以上存储应用程序1442或数据1444的存储介质1430(例如一个或一个以上海量存储设备)。其中,存储器1432和存储介质1430可以是短暂存储或持久存储。存储在存储介质1430的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器1422可以设置为与存储介质1430通信,在服务器1400上执行存储介质1430中的一系列指令操作。
服务器1400还可以包括一个或一个以上电源1426,一个或一个以上有线或无线网络接口1450,一个或一个以上输入输出接口1458,和/或,一个或一个以上操作系统1441,例如Windows ServerTM,Mac OS XTM,UnixTM, LinuxTM,FreeBSDTM等等。
上述实施例中由服务器所执行的步骤可以基于该图9所示的服务器结构。
其中,CPU 1422用于执行如下步骤:
获取待识别的第一文本;
对所述第一文本进行文本处理,得到第二文本;
根据所述第一文本和所述第二文本确定至少一个修改对,其中,一个修改对对应于所述文本处理中的一处内容修改,所述修改对包括所述第一文本中对应所述内容修改的内容,以及所述第二文本中对应所述内容修改的内容;
根据所述第一文本、所述第二文本和所述修改对,确定所述内容修改对应的语言表达错误类型和错误原因。
可选的,CPU 1422还可以执行本申请实施例中文本处理方法任一具体实现方式的方法步骤。
针对上文描述的文本处理方法,本申请实施例还提供了一种用于文本处理的终端设备,以使上述文本处理方法在实际中实现以及应用。
参见图10,图10为本申请实施例提供的一种终端设备的结构示意图。为了便于说明,仅示出了与本申请实施例相关的部分,具体技术细节未揭示的,请参照本申请实施例方法部分。该终端设备可以为包括手机、平板电脑、个人数字助理(Personal DigitalAssistant,简称PDA)等任意终端设备,以终端设备为手机为例:
图10示出的是与本申请实施例提供的终端设备相关的手机的部分结构的框图。参考图10,该手机包括:射频(Radio Frequency,简称RF)电路1510、存储器1520、输入单元1530、显示单元1540、传感器1550、音频电路1560、无线保真(wireless fidelity,简称WiFi)模块1570、处理器1580、以及电源1590等部件。本领域技术人员可以理解,图10中示出的手机结构并不构成对手机的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
下面结合图10对手机的各个构成部件进行具体的介绍:
RF电路1510可用于收发信息或通话过程中,信号的接收和发送,特别地,将基站的下行信息接收后,给处理器1580处理;另外,将设计上行的数据发送给基站。通常,RF电路1510包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器(Low NoiseAmplifier,简称LNA)、双工器等。此外,RF电路1510还可以通过无线通信与网络和其他设备通信。上述无线通信可以使用任一通信标准或协议,包括但不限于全球移动通讯系统(Global System of Mobile communication,简称GSM)、通用分组无线服务(GeneralPacket Radio Service,简称GPRS)、码分多址(Code Division Multiple Access,简称CDMA)、宽带码分多址(Wideband Code Division Multiple Access,简称WCDMA)、长期演进(Long Term Evolution,简称LTE)、电子邮件、短消息服务(Short Messaging Service,简称SMS)等。
存储器1520可用于存储软件程序以及模块,处理器1580通过运行存储在存储器1520的软件程序以及模块,从而实现手机的各种功能应用以及数据处理。存储器1520可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器1520可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
输入单元1530可用于接收输入的数字或字符信息,以及产生与手机的用户设置以及功能控制有关的键信号输入。具体地,输入单元1530可包括触控面板1531以及其他输入设备1532。触控面板1531,也称为触摸屏,可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板1531上或在触控面板1531附近的操作),并根据预先设定的程式驱动相应的连接装置。可选的,触控面板1531可包括触摸检测装置和触摸控制器两个部分。其中,触摸检测装置检测用户的触摸方位,并检测触摸操作带来的信号,将信号传送给触摸控制器;触摸控制器从触摸检测装置上接收触摸信息,并将它转换成触点坐标,再送给处理器1580,并能接收处理器1580发来的命令并加以执行。此外,可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板1531。除了触控面板1531,输入单元1530还可以包括其他输入设备1532。具体地,其他输入设备1532可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。
显示单元1540可用于显示由用户输入的信息或提供给用户的信息以及手机的各种菜单。显示单元1540可包括显示面板1541,可选的,可以采用液晶显示器(LiquidCrystal Display,简称LCD)、有机发光二极管(Organic Light-Emitting Diode,简称OLED)等形式来配置显示面板1541。进一步的,触控面板1531可覆盖显示面板1541,当触控面板1531检测到在其上或附近的触摸操作后,传送给处理器1580以确定触摸事件的类型,随后处理器1580根据触摸事件的类型在显示面板1541上提供相应的视觉输出。虽然在图10中,触控面板1531与显示面板1541是作为两个独立的部件来实现手机的输入和输入功能,但是在某些实施例中,可以将触控面板1531与显示面板1541集成而实现手机的输入和输出功能。
手机还可包括至少一种传感器1550,比如光传感器、运动传感器以及其他传感器。具体地,光传感器可包括环境光传感器及接近传感器,其中,环境光传感器可根据环境光线的明暗来调节显示面板1541的亮度,接近传感器可在手机移动到耳边时,关闭显示面板1541和/或背光。作为运动传感器的一种,加速计传感器可检测各个方向上(一般为三轴)加速度的大小,静止时可检测出重力的大小及方向,可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等;至于手机还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器,在此不再赘述。
音频电路1560、扬声器1561,传声器1562可提供用户与手机之间的音频接口。音频电路1560可将接收到的音频数据转换后的电信号,传输到扬声器1561,由扬声器1561转换为声音信号输出;另一方面,传声器1562将收集的声音信号转换为电信号,由音频电路1560接收后转换为音频数据,再将音频数据输出处理器1580处理后,经RF电路1510以发送给比如另一手机,或者将音频数据输出至存储器1520以便进一步处理。
WiFi属于短距离无线传输技术,手机通过WiFi模块1570可以帮助用户收发电子邮件、浏览网页和访问流式媒体等,它为用户提供了无线的宽带互联网访问。虽然图10示出了WiFi模块1570,但是可以理解的是,其并不属于手机的必须构成,完全可以根据需要在不改变发明的本质的范围内而省略。
处理器1580是手机的控制中心,利用各种接口和线路连接整个手机的各个部分,通过运行或执行存储在存储器1520内的软件程序和/或模块,以及调用存储在存储器1520内的数据,执行手机的各种功能和处理数据,从而对手机进行整体监控。可选的,处理器1580可包括一个或多个处理单元;优选的,处理器1580可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器1580中。
手机还包括给各个部件供电的电源1590(比如电池),优选的,电源可以通过电源管理系统与处理器1580逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。
尽管未示出,手机还可以包括摄像头、蓝牙模块等,在此不再赘述。
在本申请实施例中,该手机所包括的存储器1520可以存储程序代码,并将所述程序代码传输给所述处理器。
该手机所包括的处理器1580可以根据所述程序代码中的指令执行上述实施例提供的文本处理方法。
本申请实施例还提供一种计算机可读存储介质,用于存储计算机程序,该计算机程序用于执行上述实施例提供的文本处理方法。
本申请实施例还提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述方面的各种可选实现方式中提供的文本处理方法。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述程序可以存储于一计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质可以是下述介质中的至少一种:只读存储器(英文:read-only memory,缩写:ROM)、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
需要说明的是,本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于设备及系统实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的设备及系统实施例仅仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模型来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上所述,仅为本申请的一种具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应该以权利要求的保护范围为准。

Claims (13)

1.一种文本处理方法,其特征在于,所述方法包括:
获取待识别的第一文本;
对所述第一文本进行文本处理,得到第二文本;
根据所述第一文本和所述第二文本确定至少一个修改对,其中,一个修改对对应于所述文本处理中的一处内容修改,所述修改对包括所述第一文本中对应所述内容修改的内容,以及所述第二文本中对应所述内容修改的内容;
根据所述第一文本、所述第二文本和所述修改对,确定所述内容修改对应的语言表达错误类型和错误原因;
其中,所述根据所述第一文本、所述第二文本和所述修改对,确定所述内容修改对应的语言表达错误类型和错误原因,包括:
对所述第一文本和所述第二文本中的分词进行词性标注;
根据所述第一文本、所述第二文本、所述修改对和所标注的词性,确定所述内容修改对应的语言表达错误类型和错误原因。
2.根据权利要求1所述的方法,其特征在于,所述语言表达错误类型包括优化表达或至少一个类型的语法错误。
3.根据权利要求1所述的方法,其特征在于,所述根据所述第一文本和所述第二文本间确定至少一个修改对,包括:
以第一比对粒度对所述第一文本和所述第二文本进行内容比对,得到对应的第一比对序列;所述第一比对序列中包括第一内容对,所述第一内容对用于标识所述第一文本和所述第二文本间对应的一对文本字符串,以及这对文本字符串对应的改动方式;
以第二比对粒度对所述第一比对序列中的第一内容对进行拆分得到第二比对序列;所述第二比对序列包括第二内容对,所述第二内容对用于标识所述第一文本和所述第二文本间对应的一对文本字符串,以及这对文本字符串对应的改动方式,所述第二比对粒度小于所述第一比对粒度;
根据所述第二比对序列确定所述至少一个修改对。
4.根据权利要求3所述的方法,其特征在于,所述根据所述第二比对序列确定所述至少一个修改对,包括:
根据所述第二比对序列中第二内容对的改动方式,确定改动方式标识为修改的目标内容对;
将所述第二比对序列中符合预设规则的相邻目标内容对进行合并得到第三比对序列;所述第三比对序列中包括通过对所述相邻目标内容对合并得到所述修改对,通过合并得到的所述修改对的改动方式是根据合并方式确定的。
5.根据权利要求4所述的方法,其特征在于,所述第二比对序列中第二内容对的改动方式包括替换、插入、删除或相等中的任意一种;所述第三比对序列中修改对的改动方式包括交换。
6.根据权利要求3所述的方法,其特征在于,所述以第一比对粒度对所述第一文本和所述第二文本进行内容比对,得到对应的第一比对序列,包括:
通过对齐算法以第一比对粒度对所述第一文本和所述第二文本进行内容比对,得到对应的第一比对序列。
7.根据权利要求1-6任意一项所述的方法,其特征在于,所述方法还包括:
在所述第一文本和所述第二文本的基础上展示所述内容修改,以及展示对应的判定结果;所述判定结果包括所述语言表达错误类型和所述错误原因。
8.一种文本处理装置,其特征在于,所述装置包括获取单元和确定单元:
所述获取单元,用于获取待识别的第一文本;
所述确定单元,用于对所述第一文本进行文本处理,得到第二文本;
所述确定单元,还用于根据所述第一文本和所述第二文本确定至少一个修改对,其中,一个修改对对应于所述文本处理中的一处内容修改,所述修改对包括所述第一文本中对应所述内容修改的内容,以及所述第二文本中对应所述内容修改的内容;
所述确定单元,还用于根据所述第一文本、所述第二文本和所述修改对,确定所述内容修改对应的语言表达错误类型和错误原因;
其中,所述确定单元,用于:
对所述第一文本和所述第二文本中的分词进行词性标注;
根据所述第一文本、所述第二文本、所述修改对和所标注的词性,确定所述内容修改对应的语言表达错误类型和错误原因。
9.根据权利要求8所述的装置,其特征在于,所述语言表达错误类型包括优化表达或至少一个类型的语法错误。
10.根据权利要求8所述的装置,其特征在于,所述确定单元,用于:
以第一比对粒度对所述第一文本和所述第二文本进行内容比对,得到对应的第一比对序列;所述第一比对序列中包括第一内容对,所述第一内容对用于标识所述第一文本和所述第二文本间对应的一对文本字符串,以及这对文本字符串对应的改动方式;
以第二比对粒度对所述第一比对序列中的第一内容对进行拆分得到第二比对序列;所述第二比对序列包括第二内容对,所述第二内容对用于标识所述第一文本和所述第二文本间对应的一对文本字符串,以及这对文本字符串对应的改动方式,所述第二比对粒度小于所述第一比对粒度;
根据所述第二比对序列确定所述至少一个修改对。
11.根据权利要求10所述的装置,其特征在于,所述确定单元,用于:
根据所述第二比对序列中第二内容对的改动方式,确定改动方式标识为修改的目标内容对;
将所述第二比对序列中符合预设规则的相邻目标内容对进行合并得到第三比对序列;所述第三比对序列中包括通过对所述相邻目标内容对合并得到所述修改对,通过合并得到的所述修改对的改动方式是根据合并方式确定的。
12.一种用于文本处理的设备,其特征在于,所述设备包括处理器以及存储器:
所述存储器用于存储程序代码,并将所述程序代码传输给所述处理器;
所述处理器用于根据所述程序代码中的指令执行权利要求1-7任意一项所述的方法。
13.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质用于存储计算机程序,所述计算机程序用于执行权利要求1-7任意一项所述的方法。
CN202011231200.XA 2020-11-06 2020-11-06 一种文本处理方法和相关装置 Active CN112036135B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202011231200.XA CN112036135B (zh) 2020-11-06 2020-11-06 一种文本处理方法和相关装置
CN202110200840.2A CN113536743B (zh) 2020-11-06 2020-11-06 一种文本处理方法和相关装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011231200.XA CN112036135B (zh) 2020-11-06 2020-11-06 一种文本处理方法和相关装置

Related Child Applications (1)

Application Number Title Priority Date Filing Date
CN202110200840.2A Division CN113536743B (zh) 2020-11-06 2020-11-06 一种文本处理方法和相关装置

Publications (2)

Publication Number Publication Date
CN112036135A CN112036135A (zh) 2020-12-04
CN112036135B true CN112036135B (zh) 2021-03-02

Family

ID=73572791

Family Applications (2)

Application Number Title Priority Date Filing Date
CN202110200840.2A Active CN113536743B (zh) 2020-11-06 2020-11-06 一种文本处理方法和相关装置
CN202011231200.XA Active CN112036135B (zh) 2020-11-06 2020-11-06 一种文本处理方法和相关装置

Family Applications Before (1)

Application Number Title Priority Date Filing Date
CN202110200840.2A Active CN113536743B (zh) 2020-11-06 2020-11-06 一种文本处理方法和相关装置

Country Status (1)

Country Link
CN (2) CN113536743B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116719424B (zh) * 2023-08-09 2024-03-22 腾讯科技(深圳)有限公司 一种类型识别模型的确定方法及相关装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1123432A (zh) * 1993-09-15 1996-05-29 Citac计算机股份有限公司 机器翻译中的语法自纠正方法
CN110309504A (zh) * 2019-05-23 2019-10-08 平安科技(深圳)有限公司 基于分词的文本处理方法、装置、设备及存储介质
CN110718226A (zh) * 2019-09-19 2020-01-21 厦门快商通科技股份有限公司 语音识别结果处理方法、装置、电子设备及介质

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101911067A (zh) * 2008-01-08 2010-12-08 三菱电机株式会社 信息过滤系统、信息过滤方法以及信息过滤程序
CN101520779A (zh) * 2009-04-17 2009-09-02 哈尔滨工业大学 一种机器翻译自动诊断评价方法
US8326602B2 (en) * 2009-06-05 2012-12-04 Google Inc. Detecting writing systems and languages
US8560300B2 (en) * 2009-09-09 2013-10-15 International Business Machines Corporation Error correction using fact repositories
US11727198B2 (en) * 2016-02-01 2023-08-15 Microsoft Technology Licensing, Llc Enterprise writing assistance
JP6605995B2 (ja) * 2016-03-16 2019-11-13 株式会社東芝 音声認識誤り修正装置、方法及びプログラム
CN106776549B (zh) * 2016-12-06 2020-04-24 桂林电子科技大学 一种基于规则的英语作文语法错误纠正方法
CN109840321B (zh) * 2017-11-29 2022-02-01 腾讯科技(深圳)有限公司 文本推荐方法、装置及电子设备
CN108595410B (zh) * 2018-03-19 2023-03-24 小船出海教育科技(北京)有限公司 手写作文的自动批改方法及装置
CN108519974A (zh) * 2018-03-31 2018-09-11 华南理工大学 英语作文语法错误自动检测与分析方法
CN111767709A (zh) * 2019-03-27 2020-10-13 武汉慧人信息科技有限公司 一种对英文文本进行纠错及句法分析的逻辑方法
CN111090989B (zh) * 2019-07-17 2023-09-22 广东小天才科技有限公司 一种基于文字识别的提示方法及电子设备
CN110427330B (zh) * 2019-08-13 2023-09-26 腾讯科技(深圳)有限公司 一种代码分析的方法以及相关装置
CN111859920B (zh) * 2020-06-19 2024-06-04 北京国音红杉树教育科技有限公司 单词拼写错误的识别方法、系统及电子设备
CN111737980B (zh) * 2020-06-22 2023-05-16 桂林电子科技大学 一种英语文本单词使用错误的纠正方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1123432A (zh) * 1993-09-15 1996-05-29 Citac计算机股份有限公司 机器翻译中的语法自纠正方法
CN110309504A (zh) * 2019-05-23 2019-10-08 平安科技(深圳)有限公司 基于分词的文本处理方法、装置、设备及存储介质
CN110718226A (zh) * 2019-09-19 2020-01-21 厦门快商通科技股份有限公司 语音识别结果处理方法、装置、电子设备及介质

Also Published As

Publication number Publication date
CN113536743A (zh) 2021-10-22
CN112036135A (zh) 2020-12-04
CN113536743B (zh) 2024-08-06

Similar Documents

Publication Publication Date Title
US11416681B2 (en) Method and apparatus for determining a reply statement to a statement based on a sum of a probability of the reply statement being output in response to the statement and a second probability in which the statement is output in response to the statement and further based on a terminator
CN110334360B (zh) 机器翻译方法及装置、电子设备及存储介质
US20190385004A1 (en) Image recognition method, terminal, and storage medium
EP3792789A1 (en) Translation model training method, sentence translation method and apparatus, and storage medium
EP2947581B1 (en) Interactive searching method and apparatus
CN110162770A (zh) 一种词扩展方法、装置、设备及介质
CN111177371B (zh) 一种分类方法和相关装置
CN110334347A (zh) 基于自然语言识别的信息处理方法、相关设备及存储介质
CN110795528A (zh) 一种数据查询方法、装置、电子设备及存储介质
CN108345612B (zh) 一种问题处理方法和装置、一种用于问题处理的装置
CN110717026B (zh) 一种文本信息识别的方法、人机对话的方法及相关装置
CN110795538B (zh) 一种基于人工智能的文本评分方法和相关设备
CN111061383B (zh) 文字检测方法及电子设备
CN111597804B (zh) 一种实体识别模型训练的方法以及相关装置
CN111368525A (zh) 信息搜索方法、装置、设备及存储介质
CN112214605A (zh) 一种文本分类方法和相关装置
WO2022135474A1 (zh) 信息推荐方法、装置及电子设备
CN114328852A (zh) 一种文本处理的方法、相关装置及设备
CN109543014B (zh) 人机对话方法、装置、终端及服务器
US20200004768A1 (en) Method for processing language information and electronic device therefor
CN112749252A (zh) 一种基于人工智能的文本匹配方法和相关装置
CN110837734A (zh) 文本信息处理方法、移动终端
CN112036135B (zh) 一种文本处理方法和相关装置
CN112307198B (zh) 一种单文本的摘要确定方法和相关装置
CN113822038A (zh) 一种摘要生成方法和相关装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40035414

Country of ref document: HK