CN106294325A - 自然语言生成语句的优化方法及装置 - Google Patents

自然语言生成语句的优化方法及装置 Download PDF

Info

Publication number
CN106294325A
CN106294325A CN201610656926.5A CN201610656926A CN106294325A CN 106294325 A CN106294325 A CN 106294325A CN 201610656926 A CN201610656926 A CN 201610656926A CN 106294325 A CN106294325 A CN 106294325A
Authority
CN
China
Prior art keywords
statement
word
statistical model
unreasonable
spatial term
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610656926.5A
Other languages
English (en)
Other versions
CN106294325B (zh
Inventor
袁丽
甘信军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hisense Group Co Ltd
Original Assignee
Hisense Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hisense Group Co Ltd filed Critical Hisense Group Co Ltd
Priority to CN201610656926.5A priority Critical patent/CN106294325B/zh
Publication of CN106294325A publication Critical patent/CN106294325A/zh
Application granted granted Critical
Publication of CN106294325B publication Critical patent/CN106294325B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/253Grammatical analysis; Style critique
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本公开涉及了一种自然语言生成语句的优化方法及装置,所述自然语言生成语句的优化方法包括:基于所述多元文法统计模型计算神经网络中自然语言生成语句的联合概率;根据所述自然语言生成语句的联合概率筛选所述自然语言生成语句,得到联合概率为零的不合理语句;根据所述多元文法统计模型的知识图谱对所述不合理语句进行路径搜索,并根据搜索结果映射得到所述不合理语句的优化结果;所述知识图谱是由收集到的文本语料预先构建的。采用本公开提供的自然语言生成语句的优化方法及装置能够提高自然语言生成语句的优化效率。

Description

自然语言生成语句的优化方法及装置
技术领域
本公开涉及计算机应用技术领域,尤其涉及一种自然语言生成语句的优化方法及装置。
背景技术
随着深度学习在自然语言处理中的应用,眼下关于自然语言生成语句的研究也是日益火热。
深度学习的各种模型多为基于概率模型,由概率统计得到的自然语言生成语句的准确性远不如人为规则生成的语句,即自然语言生成语句的准确性还不够高,可能得到某些不通顺或者语法不合理的自然语言生成语句。例如,“美好多么的时光”、“我告诉右边舍不得离开”等等。
为了提高自然语言生成语句的准确性,还需要对自然语言生成语句作进一步地优化。
目前,优化的方法多是基于人为规则或者语法依存关系,然而,由于自然语言具有多变性和复杂性,使得人为规则的适用性较差,语法依存关系的准确性又不够高,往往会导致优化过程中自然语言生成语句被错误地舍弃。例如,“美好多么的时光”和“我告诉右边舍不得离开”即会被视为不符合人为规则或者不存在语法依存关系而被舍弃。
然而,可以理解,“美好多么的时光”经过词语重组可以得到合理语句“多么美好的时光”,而“我告诉右边舍不得离开”经过词语过滤则可以得到合理语句“我舍不得离开”。在优化过程中,倘若将该些可能成为合理语句的自然语言生成语句舍弃,将会导致上下文不连贯等问题。
因此,如何提高自然语言生成语句的优化效率,以解决自然语言生成语句在优化过程中被错误地舍弃的问题。
发明内容
基于此,本公开的一个目的在于提供一种自然语言生成语句的优化方法及装置,用于解决现有技术中自然语言生成语句的优化效率较低的问题。
为了解决上述技术问题,本公开所采用的技术方案为:
一种自然语言生成语句的优化方法,包括:基于所述多元文法统计模型计算神经网络中自然语言生成语句的联合概率;根据所述自然语言生成语句的联合概率筛选所述自然语言生成语句,得到联合概率为零的不合理语句;根据所述多元文法统计模型的知识图谱对所述不合理语句进行路径搜索,并根据搜索结果映射得到所述不合理语句的优化结果;所述知识图谱是由收集到的文本语料预先构建的。
一种自然语言生成语句的优化装置,包括:概率计算单元,用于基于所述多元文法统计模型计算神经网络中自然语言生成语句的联合概率;语句筛选单元,用于根据所述自然语言生成语句的联合概率筛选所述自然语言生成语句,得到联合概率为零的不合理语句;语句优化单元,用于根据所述多元文法统计模型的知识图谱对所述不合理语句进行路径搜索,并根据搜索结果映射得到所述不合理语句的优化结果;所述知识图谱是由收集到的文本语料预先构建的。
与现有技术相比,本公开具有以下有益效果:
通过基于多元文法统计模型计算神经网络中自然语言生成语句的联合概率,筛选得到联合概率为零的不合理语句,进而根据该多元文法统计模型的知识图谱对该不合理语句进行路径搜索,由搜索结果映射得到该不合理语句的优化结果。其中,多元文法统计模型的知识图谱是由收集到的文本语料预先构建的。也就是说,本公开并非基于人为规则或者语法依存关系,而是利用多元文法统计模型的知识图谱将自然语言生成语句的优化过程转化为路径搜索的过程,进而通过路径搜索的过程对不合理语句中的词进行词语重组或者词语过滤,使得不合理语句有机会被映射为合理语句,避免了自然语言生成语句在优化过程中被错误地舍弃,以此提高了自然语言生成语句的优化效率。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并于说明书一起用于解释本公开的原理。
图1是根据一示例性实施例示出的一种服务器的框图;
图2是根据一示例性实施例示出的一种自然语言生成语句的优化方法的流程图;
图3是根据本公开所涉及的知识图谱的示意图;
图4是根据一示例性实施例示出的另一种自然语言生成语句的优化方法的流程图;
图5是图4对应实施例中步骤430在一个实施例的流程图;
图6是图2对应实施例中步骤350在一个实施例的流程图;
图7是根据本公开所涉及的知识图谱的示意图;
图8是根据一示例性实施例示出的另一种自然语言生成语句的优化方法的流程图;
图9是根据本公开所涉及的知识图谱的示意图;
图10是根据本公开所涉及的知识图谱的示意图;
图11是根据一示例性实施例示出的一种自然语言生成语句的优化装置的框图;
图12是根据一示例性实施例示出的另一种自然语言生成语句的优化装置的框图;
图13是图12对应实施例中词典构建单元在一个实施例的框图;
图14是图11对应实施例中语句优化单元在一个实施例的框图;
图15是图11对应实施例中语句优化单元在另一个实施例的框图;。
通过上述附图,已示出本公开明确的实施例,后文中将有更详细的描述,这些附图和文字描述并不是为了通过任何方式限制本公开构思的范围,而是通过参考特定实施例为本领域技术人员说明本公开的概念。
具体实施方式
这里将详细地对示例性实施例执行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
本公开实施例提供了一种自然语言生成语句的优化方法,该方法的执行主体为终端或服务器,该终端可以为电脑、智能手机、智能电视等。
图1是根据一示例性实施例示出的一种服务器的框图。该硬件结构只是一个适用本公开的示例,不能认为是对本公开的使用范围的任何限制,也不能解释为本公开需要依赖于该服务器100。
该服务器100可因配置或者性能的不同而产生较大的差异,如图1所示,服务器100包括:电源110、接口130、至少一存储介质150、以及至少一中央处理器(CPU,CentralProcessing Units)170。
其中,电源110用于为服务器100上的各硬件设备提供工作电压。
接口130包括至少一有线或无线网络接口131、至少一串并转换接口133、至少一输入输出接口135以及至少一USB接口137等,用于与外部设备通信。
存储介质150作为资源存储的载体,可以是随机存储介质、磁盘或者光盘等,其上所存储的资源包括操作系统151、应用程序153及数据155等,存储方式可以是短暂存储或者永久存储。其中,操作系统151用于管理与控制服务器100上的各硬件设备以及应用程序153,以实现中央处理器170对海量数据155的计算与处理,其可以是Windows ServerTM、MacOS XTM、UnixTM、LinuxTM、FreeBSDTM等。应用程序153是基于操作系统151之上完成至少一项特定工作的计算机程序,其可以包括至少一模块(图示未示出),每个模块都可以分别包含有对服务器100的一系列操作指令。数据155可以是存储于磁盘中的照片、图片、文本等等。
中央处理器170可以包括一个或多个以上的处理器,并设置为通过总线与存储介质150通信,用于运算与处理存储介质150中的海量数据155。
如上面所详细描述的,适用本公开的服务器100将对神经网络中自然语言生成语句进行优化,即通过中央处理器170读取存储介质150中存储的一系列操作指令的形式来实现自然语言生成语句的优化方法。
此外,通过硬件电路或者硬件电路结合软件指令也能同样实现本公开,因此,实现本公开并不限于任何特定硬件电路、软件以及两者的组合。
请参阅图2,在一示例性实施例中,一种自然语言生成语句的优化方法适用于图1所示的服务器100,该种自然语言生成语句的优化方法可以由服务器100执行,可以包括以下步骤:
步骤310,基于多元文法统计模型计算神经网络中自然语言生成语句的联合概率。
神经网络通过对收集的文本语料进行训练,使机器学习到语言的各项特征,进而使得机器能够在无人工干预的前提下生成自然语言生成语句。
然而,由于神经网络是基于概率模型,其中生成的自然语言生成语句的准确性还不够高,可能会生成某些不通顺或者语法不合理的自然语言生成语句。为此,在对生成的自然语言生成语句进行优化之前,需要对其准确性进行评估,以利于该些不通顺或者语法不合理的自然语言生成语句的获取。
由于语言模型是通过收集的文本语料对语言本身的概率分布进行建模和训练得到的,其可反映出语言出现的概率,为此,本实施例中,评估自然语言生成语句的准确性通过利用语言模型对自然语言生成语句的联合概率进行计算实现。
进一步地,自然语言生成语句的联合概率通过语言模型中的多元文法统计模型计算得到。
其中,多元文法统计模型假设第n个词的出现只与其前面的n-1个词相关,而与其它任何词都不相关,进而通过n个词同时出现的概率反映出由该n个词所构成的语句的联合概率。可以理解,若语句的联合概率越大,则表示语句出现的概率越大,即语句的准确性越高。
具体地,多元文法统计模型计算语句的联合概率如以下公式所示:
p(x1,x2,…,xn)=p(xn|xn-1,xn-2,…,x1)…p(x3|x1,x2)p(x2|x1)p(x1)。
其中,p(x1,x2,…,xn)表示n个词同时出现的概率,亦即由该n个词所构成的语句的联合概率,p(x1)表示第1个词出现的概率,p(x2|x1)表示第2个词与第1个词同时出现的概率,以此类推。p(x1)、p(x2|x1)等概率则可进一步地通过在收集的文本语料中统计该些词同时出现的次数得到。
更进一步地,根据实际的应用场景,多元文法统计模型中的n可以选取不同的数值。例如收集的文本语料有限时,多元文法统计模型可以是n=2的二元文法统计模型(Bi-Gram),还可以是n=3的三元文法统计模型(Tri-Gram)。
以二元文法统计模型为例,二元文法统计模型假设一个词的出现仅与其前面的一个词相关,其计算语句的联合概率如以下公式所示:
p(x1,x2,…,xn)=p(xn|xn-1)p(xn-1|xn-2)…p(x2|x1)p(x1)。
通过采用二元文法统计模型对自然语言生成语句进行联合概率的计算,不仅能够避免收集的文本语料的全面性不足而导致语言模型对自然语言生成语句的准确性进行评估的有效性,而且有利于降低语言模型对联合概率计算的复杂度。
步骤330,根据自然语言生成语句的联合概率筛选自然语言生成语句,得到联合概率为零的不合理语句。
不合理语句指的是不通顺或者语法不合理的自然语言生成语句。应当理解,不合理语句是由于语句中存在至少两个词搭配不合理,例如,“美好多么的时光”中的“美好”和“多么”就属于搭配不合理。
换而言之,该两个词以“美好多么”的方式不可能存在原先收集到的文本语料中,亦即该两个词以“美好多么”的方式在原先收集到的文本语料中被统计到同时出现的次数为零。
基于此,在计算得到自然语言生成语句的联合概率之后,按照联合概率为零的原则即可由生成的自然语言生成语句中筛选出不合理语句,从而有利于后续对不通顺或者语法不合理的自然语言生成语句进行优化。
步骤350,根据多元文法统计模型的知识图谱对不合理语句进行路径搜索,并根据搜索结果映射得到不合理语句的优化结果。
所谓的知识图谱是指显示知识结构关系的图形,进而通过可视化技术描述知识及其载体之间的相互联系。
由此可知,多元文法统计模型的知识图谱是显示语句结构关系的图形,其本质是一种语义网络,网络中的各节点表示语句中的各个词语,网络中连接各节点的边则表示各个词语之间的搭配关系,进而通过可视化技术描述语句及其载体词之间的相互联系,即通过可视化技术描述词是如何构成语句的。
也就是说,在多元文法统计模型的知识图谱中,通过节点及连接节点的边所构成的路径即可映射出一句合理语句,例如图3中的合理语句“你为什么不能坚持”,即是由“你”、“为什么”、“不能”和“坚持”等四个节点及相应的边所构成的路径映射得到的。
基于此,通过该知识图谱对不合理语句进行路径搜索,将得到包含至少一条路径的搜索结果,在得到搜索结果之后,即可根据知识图谱中路径与合理语句之间存在的映射关系,将搜索结果中的至少一条路径映射得到至少一句合理语句,并以该合理语句作为不合理语句的优化结果。
需要说明的是,本实施例中,多元文法统计模型的知识图谱是由收集到的文本语料预先构建的。其中,文本语料可以通过例如网站爬取进行收集,以获取尽可能多的新闻、小说、文章等文本语料,从而有利于语言模型、知识图谱等的构建和训练。
通过如上所述的过程,实现了基于路径搜索的自然语言生成语句的优化,避免采用现有技术中基于人为规则或者语法依存关系对自然语言生成语句进行的优化,以此降低了优化过程中自然语言生成语句被错误地舍弃的机率,从而提高了自然语言生成语句的优化效率。
请参阅图4,在一示例性实施例中,多元文法统计模型为二元文法统计模型。
如前所述,一方面,受限于收集的文本语料的全面性,若n取值过大,由n个词所构成的语句即使是一合理语句,但是由于其可能并未存在于该收集的文本语料中,而导致计算出的自然语言生成语句的联合概率为零,进而降低了多元文法统计模型的评估有效性;另一方面,n取值过大时,之前n-1个词对第n个词出现的影响是微乎其微的,反而增加了多元文法统计模型计算自然语言生成语句的联合概率的复杂度。
为此,本实施例中,令n=2,采用二元文法统计模型对自然语言生成语句的联合概率进行计算,并基于此进行相应知识图谱的预先构建。
进一步地,如上所述的方法还可以包括以下步骤:
步骤410,利用二元文法统计模型对文本语料进行分词处理,获取相邻词间的搭配信息。
如前所述,多元文法统计模型的知识图谱的各节点标识语句中的各词,边则表示各词之间的搭配关系。
基于此,为了构建二元文法统计模型的知识图谱,需要先由收集到的文本语料中获取语句中的相邻词以及相邻词之间的搭配关系,即相邻词间的搭配信息。
应当理解,相邻词之间的搭配关系指的是两个词语按照前后顺序进行的合理搭配,例如,“多么”和“美好”为相邻词,二者的合理搭配为“多么美好”,则二者的搭配关系是“多么”在“美好”之前。故而,相邻词间的搭配信息是能够反映相邻词以及相邻词之间的搭配关系的,即通过相邻词间的搭配信息,能够了解到其中包含的两个相邻词、以此该两个相邻词是按照何种前后顺序进行合理搭配的。
本实施例中,对文本语料的分词处理由二元文法统计模型实现。具体地,通过二元文法统计模型计算分词处理的语句中相邻词同时出现的概率,并根据计算得出的最大概率,即可获取到最为合适的相邻词间的搭配信息。
例如,“多么”和“美好”为相邻词,若二者按照“多么美好”的搭配顺序同时出现,则二元文法统计模型对此计算得出的概率较大,若二者按照“美好多么”的搭配顺序同时出现,则二元文法统计模型对此计算得出的概率为零。由此,依照概率大的原则,得到“多么”和“美好”两个相邻词间的搭配信息为“多么美好”,即相邻词“多么”和“美好”是按照“多么”在前,“美好”在后的顺序进行合理搭配的。
其中,二元文法统计模型计算相邻词同时出现的概率的方法与其计算自然语言生成语句的联合概率的方法类似,在此不再赘述。
步骤430,根据搭配信息构建二元文法统计模型对应的词典。
二元文法统计模型对应的词典是用以提供相邻词间的搭配信息的,故而,在获取到相邻词间的搭配信息之后,该词典即可完成构建。
进一步地,词典中还可以包含相邻词按照搭配关系同时出现的概率,以此反映搭配信息中包含的相邻词的出现频率。
举例来说,搭配信息为“多么美好”,则相应地,词典中包含的概率是相邻词“多么”和“美好”按照“多么”在前,“美好”在后的搭配关系同时出现在文本语料中的概率。若概率越大,则表示该相邻词按照该搭配关系在文本语料中的出现频率越高。
步骤450,图形化重构词典,得到二元文法统计模型的知识图谱。
由于二元文法统计模型的知识图谱是图形的形式,如图3所示,因此,在构建得到对应的词典之后,还需要对该词典进行图形化重构。
进一步地,通过词典中包含的相邻词间的搭配信息进行图形化重构。例如,以搭配信息中包含的相邻词作为节点。连接节点的边则表示相邻词之间的搭配关系。
更进一步地,图形化重构还可以利用词典中包含的相邻词按照搭配关系同时出现的概率或者频次。例如,以相邻词按照搭配关系同时出现的概率或者频次标识边。
如图3所示,知识图谱中,例如,节点有“我”和“坚持”,该两节点作为相邻词所形成的边表示了二者之间的搭配关系,即通过箭头所指示的方向,表示了“我”在前,“坚持”在后的搭配关系。而边上的数字16表示该两相邻词按照该搭配关系同时出现在文本语料中的频次。
通过如上所述的过程,实现二元文法统计模型的知识图谱的构建,不仅避免了n取值过大时存在的不足,相较于n>2的多元文法统计模型,例如N元文法统计模型(N-Gram),具有更强的通用性和适用性,而且对文本语料的全面性要求也有所降低,从而更有利于提高自然语言生成语句的优化效率。
请参阅图5,在一示例性实施例中,步骤430可以包括以下步骤:
步骤431,根据搭配信息遍历文本语料,计算搭配信息的词频。
如前所述,相邻词间的搭配信息是能够反映相邻词以及相邻词之间的搭配关系的,即通过相邻词间的搭配信息,能够了解到其中包含的两个相邻词、以此该两个相邻词是按照何种前后顺序进行合理搭配的。
由此,词频表示的是搭配信息中相邻词按照搭配关系同时出现的次数,为此,按照搭配信息遍历文本语料,即按照搭配信息中的相邻词以及相邻词之间的搭配关系遍历文本语料的所有语句中的相邻词,并统计该搭配信息中相邻词按照搭配关系在文本语料中同时出现的次数,即可计算得到该搭配信息的词频。
步骤433,建立搭配信息与词频的对应关系,并保存对应关系形成词典。
在得到搭配信息的词频之后,即可建立并保存二者之间的对应关系,形成例如下表1所示的词典。
表1二元文法统计模型对应的词典
当然,根据实际的应用场景,词典的存储形式可以是查找表,也可以是存储器,本实施例中并未对此加以限制。
在一示例性实施例中,步骤450可以包括以下步骤:
以词典中搭配信息包含的相邻词作为两相邻节点,按照相邻词的搭配关系连接两相邻节点形成边,并以搭配信息的词频标识边,构建得到知识图谱。
在构建得到词典之后,即可由词典中获取到搭配信息及其词频。
如前所述,多元文法统计模型的知识图谱的各节点表示语句中的各词,边则表示各词之间的搭配关系。
为此,本实施例中,基于二元文法统计模型,相邻两节点用以表示搭配信息中的相邻词,连接相邻两节点所形成的边则用以表示相邻词的搭配关系,即通过搭配信息中相邻词同时出现的概率标识边,构建得到二元文法统计模型的知识图谱。
其中,由于边是按照相邻词的搭配关系连接两相邻节点形成的,因此,边是具有方向性的,并且该方向性与相邻词的搭配关系紧密相关。举例来说,相邻词“多么”和“美好”,二者之间的搭配关系为“多么美好”,故而,该相邻词对应边所具有的方向为由节点“多么”指向节点“美好”。
进一步地,由于联合概率不为零的合理语句取决于该合理语句中词同时出现的概率,基于二元文法统计模型,则是取决于搭配信息中相邻词同时出现的概率。
可以理解,相邻词同时出现的概率为正,而用以表示相邻词同时出现的次数的词频也大于零,因此,在上述知识图谱的构建基础上,将通过搭配信息的词频取代相邻词同时出现的概率对边进行标识。
通过如上所述的过程,以搭配信息中相邻词同时出现的次数替代该相邻词同时出现的概率,有利于简化自然语言生成语句在优化过程中的计算复杂度,进而有利于进一步地提高自然语言生成语句的优化效率。
请参阅图6,在一示例性实施例中,步骤350可以包括以下步骤:
步骤351,以不合理语句中的每一个词作为路径起点,按照知识图谱中边的输出方向搜索得到多条路径。
应当理解,两相邻节点按照相邻词的搭配关系具有前后关系,例如,相邻节点“多么”和“美好”,按照相邻词的搭配关系,可知,节点“多么”为在前节点,而节点“美好”为在后节点。
由此,本实施例中,知识图谱中边的输出方向指的是由在前节点指向在后节点,例如,“多么->美好”,进一步地,路径的搜索方向则是由作为路径起点的节点按照边的输出方向逐渐指向作为路径终点的节点。
举例来说,神经网络中自然语言生成语句为“美好多么的时光”,该自然语言生成语句的联合概率为零。
根据图7所示的二元文法统计模型的知识图谱,以联合概率为零的不合理语句中的每一个词作为路径起点,则有节点“美好”、“多么”、“的”和“时光”。
请继续参阅图7,按照知识图谱中边的输出方向,例如,“多么->美好”、“多么->的”,搜索得到多条路径。
该多条路径包括:“多么,美好,的,时光”、“多么,的,时光”、“多么,的,美好,时光”、“多么,美好,时光”、“美好,的,时光”、“美好,时光”、“的,美好,时光”、“的,时光”。
可以理解,以不合理语句中的词“时光”作为路径起点的,由于其不存在边的输出方向,故而,在搜索得到的路径中并没有与其对应的路径。
步骤353,计算每一条路径包含的所有边的词频总和。
由于所有边都标识有搭配信息的词频,以此代表搭配信息中相邻词同时出现的概率。因此,在搜索得到路径之后,即可根据知识图谱中标识的词频,计算出每一条路径包含的所有边的词频总和。
如图7所示,搜索得到的多条路径及其所对应的词频总和如下表2所示:
表2搜索结果
步骤355,将词频总和最大的路径所包含的各节点映射为自然语言语句,该自然语言语句即为优化结果。
由上表2可知,词频总和969最大的路径为“多么,美好,的,时光”,因此,通过该路径所包含的各节点映射得到的不合理语句的优化结果为“多么美好的时光”。
通过如上所述的过程,实现了对不合理语句中词的重组,进而避免了该不合理语句被错误地舍弃,以此提高了自然语言生成语句的优化效率。
进一步地,请参阅图8,在一示例性实施例中,步骤353之前,如上所述的方法还可以包括以下步骤:
步骤510,确定多条路径中每一条路径中的节点数量。
步骤530,判断多条路径中每一条路径中的节点数量是否大于预设阈值。
应当理解,若搜索得到的路径数量过多,对每一条路径包含的所有边的词频总和进行计算将产生庞大的计算任务,进而可能占用服务器较多的内存,而影响服务器对其他任务的处理效率。
为此,将对搜索得到的多条路径进行筛选,通过筛选保留较有可能映射为合理语句的路径,以基于筛选后的路径进行计算。
由于文本语料中词同时出现的不确定性,将有可能出现由较少词构成的语句的词频总和反而要大于由较多词构成的语句的词频总和,因此,考虑到尽量少的过滤不合理语句中的词,本实施例中,以深度优先的原则进行路径筛选,即在确定路径中节点数量之后,判断路径中节点数量与预设阈值的比较结果,进而通过比较结果进行路径筛选,最终保留节点数量超过预设阈值的路径。
进一步地,预设阈值设置为不合理语句中词数量的一半,若路径中节点数量不足不合理语句中词数量的一半,则舍弃该路径。通过如此设置,在有效地减少服务器的计算量的同时,还考虑了对不合理语句中词的过滤的合理性,使得不合理语句中的词不至于被大量的过滤掉,进而有利于进一步地提高自然语言生成语句的优化效率。
当然,在其他实施例中,预设阈值也可以设置为不合理语句中词数量中的其他任意值,本公开并未对此加以限制。
相应地,步骤353则进一步地包括:计算多条路径中节点数量大于预设阈值的每一条路径包含的所有边的词频总和。
举例来说,神经网络中自然语言生成语句为“自然不会音乐每天他”,该自然语言生成语句的联合概率为零。
根据图9所示的二元文法统计模型的知识图谱,对上述联合概率为零的不合理语句进行路径搜索,即得到搜索结果如下表3:
表3搜索结果
路径 词频总和
自然,不会 56
音乐,不会 7
他,今天 118
他,不会 42
由于搜索得到的所有路径中节点数量(2)均为超过不合理语句中词数量的一半(2.5),因此,搜索得到的所有路径均被舍弃,进而使得该生成的自然语言生成语句也被舍弃。
又例如,神经网络中自然语言生成语句为“我告诉右边舍不得离开”,该自然语言生成语句的联合概率为零。
根据图10所示的二元文法统计模型的知识图谱,对上述联合概率为零的不合理语句进行路径搜索,即得到搜索结果如下表4:
表4搜索结果
路径 词频总和
我,舍不得,离开 88
我,右边 16
我,告诉 172
由于搜索得到的路径中仅有“我,舍不得,离开”的节点数量(3)超过不合理语句中词数量的一半(2.5),因此,仅有该路径得以保留,进而通过该路径所包含的各节点映射得到的不合理语句的优化结果为“我舍不得离开”。
通过如上所述的过程,实现了对不合理语句中词的过滤,并在保证生成的自然语言生成语句不会被错误地舍弃的前提下,同时实现了对搜索得到的路径的筛选,有效地减少了服务器的计算量,降低了服务器被占用的内存,不仅有利于进一步地提升服务器对自然语言生成语句的优化效率,而且有利于提升服务器处理其他任务的处理效率。
下述为本公开装置实施例,可以用于执行本公开所涉及的自然语言生成语句的优化方法。对于本公开装置实施例中未披露的细节,请参照本公开所涉及的自然语言生成语句的优化方法的实施例。
请参阅图11,在一示例性实施例中,一种自然语言生成语句的优化装置700包括但不限于:概率计算单元710、语句筛选单元730和语句优化单元750。
其中,概率计算单元710用于基于多元文法统计模型计算神经网络中自然语言生成语句的联合概率。
语句筛选单元730用于根据自然语言生成语句的联合概率筛选自然语言生成语句,得到联合概率为零的不合理语句。
语句优化单元750用于根据多元文法统计模型的知识图谱对不合理语句进行路径搜索,并根据搜索结果映射得到不合理语句的优化结果。知识图谱是由收集到的文本语料预先构建的。
请参阅图12,在一示例性实施例中,多元文法统计模型为二元文法统计模型,进一步地,如上所述的装置700还可以包括但不限于:信息获取单元810、词典构建单元830和图谱构建单元850。
其中,信息获取单元810用于利用二元文法统计模型对文本语料进行分词处理,获取相邻词间的搭配信息。
词典构建单元830用于根据搭配信息构建二元文法统计模型对应的词典。
图谱构建单元850用于图形化重构词典,得到二元文法统计模型的知识图谱。
请参阅图13,在一示例性实施例中,词典构建单元830包括但不限于:信息遍历模块831和对应模块833。
其中,信息遍历模块831用于根据搭配信息遍历文本语料,计算搭配信息的词频。
对应模块833用于建立搭配信息与词频的对应关系,并保存对应关系形成词典。
在一示例性实施例中,图谱构建单元850包括但不限于:词典重构模块。
其中,词典重构模块用于以词典中搭配信息包含的相邻词作为两相邻节点,按照相邻词的搭配关系连接两相邻节点形成边,并以搭配信息的词频标识边,构建得到知识图谱。
请参阅图14,在一示例性实施例中,语句优化单元750包括但不限于:路径搜索模块751、词频计算模块753和语句映射模块755。
其中,路径搜索模块751用于以不合理语句中的每一个词作为路径起点,按照知识图谱中边的输出方向搜索得到多条路径。
词频计算模块753用于计算每一条路径包含的所有边的词频总和。
语句映射模块755用于将词频总和最大的路径所包含的各节点映射为自然语言语句,该自然语言语句即为优化结果。
请参阅图15,在一示例性实施例中,语句优化单元750还包括但不限于:节点数量确定模块910和节点数量判断模块930。
其中,节点数量确定模块910用于确定多条路径中每一条路径中的节点数量。
节点数量判断模块930用于判断多条路径中每一条路径中的节点数量是否大于预设阈值。
相应的,词频计算模块753用于计算多条路径中节点数量大于预设阈值的每一条路径包含的所有边的词频总和。
需要说明的是,上述实施例所提供的自然语言生成语句的优化装置在优化自然语言生成语句时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即服务器的内部结构将划分为不同的功能模块,以完成以上描述的全部或者部分功能。
另外,上述实施例所提供的自然语言生成语句的优化装置与自然语言生成语句的优化方法的实施例属于同一构思,其中各个模块执行操作的具体方式已经在方法实施例中进行了详细描述,此处不再赘述。
上述内容,仅为本公开的较佳示例性实施例,并非用于限制本公开的实施方案,本领域普通技术人员根据本公开的主要构思和精神,可以十分方便地进行相应的变通或修改,故本公开的保护范围应以权利要求书所要求的保护范围为准。

Claims (12)

1.一种自然语言生成语句的优化方法,其特征在于,包括:
基于所述多元文法统计模型计算神经网络中自然语言生成语句的联合概率;
根据所述自然语言生成语句的联合概率筛选所述自然语言生成语句,得到联合概率为零的不合理语句;
根据所述多元文法统计模型的知识图谱对所述不合理语句进行路径搜索,并根据搜索结果映射得到所述不合理语句的优化结果;所述知识图谱是由收集到的文本语料预先构建的。
2.如权利要求1所述的方法,其特征在于,所述多元文法统计模型为二元文法统计模型,所述方法还包括:
利用所述二元文法统计模型对所述文本语料进行分词处理,获取相邻词间的搭配信息;
根据所述搭配信息构建所述二元文法统计模型对应的词典;
图形化重构所述词典,得到所述二元文法统计模型的知识图谱。
3.如权利要求2所述的方法,其特征在于,所述根据所述搭配信息构建所述二元文法统计模型对应的词典的步骤包括:
根据所述搭配信息遍历所述文本语料,计算所述搭配信息的词频;
建立所述搭配信息与词频的对应关系,并保存所述对应关系形成所述词典。
4.如权利要求2所述的方法,其特征在于,所述图形化重构所述词典,得到所述二元文法统计模型的知识图谱的步骤包括:
以所述词典中搭配信息包含的相邻词作为两相邻节点,按照相邻词的搭配关系连接两相邻节点形成边,并以所述搭配信息的词频标识所述边,构建得到所述知识图谱。
5.如权利要求1所述的方法,其特征在于,所述根据所述多元文法统计模型的知识图谱对所述不合理语句进行路径搜索,并根据搜索结果映射得到所述不合理语句的优化结果的步骤包括:
以所述不合理语句中的每一个词作为路径起点,按照所述知识图谱中边的输出方向搜索得到多条路径;
计算每一条路径包含的所有边的词频总和;
将词频总和最大的路径所包含的各节点映射为自然语言语句,所述自然语言语句即为所述优化结果。
6.如权利要求5所述的方法,其特征在于,所述计算每一条路径包含的所有边的词频总和的步骤之前,还包括:
确定所述多条路径中每一条路径中的节点数量;
判断所述多条路径中每一条路径中的节点数量是否大于预设阈值;
相应的,所述计算每一条路径包含的所有边的词频总和包括:
计算所述多条路径中节点数量大于预设阈值的每一条路径包含的所有边的词频总和。
7.一种自然语言生成语句的优化装置,其特征在于,包括:
概率计算单元,用于基于所述多元文法统计模型计算神经网络中自然语言生成语句的联合概率;
语句筛选单元,用于根据所述自然语言生成语句的联合概率筛选所述自然语言生成语句,得到联合概率为零的不合理语句;
语句优化单元,用于根据所述多元文法统计模型的知识图谱对所述不合理语句进行路径搜索,并根据搜索结果映射得到所述不合理语句的优化结果;所述知识图谱是由收集到的文本语料预先构建的。
8.如权利要求7所述的装置,其特征在于,所述多元文法统计模型为二元文法统计模型,所述装置还包括:
信息获取单元,用于利用所述二元文法统计模型对所述文本语料进行分词处理,获取相邻词间的搭配信息;
词典构建单元,用于根据所述搭配信息构建所述二元文法统计模型对应的词典;
图谱构建单元,用于图形化重构所述词典,得到所述二元文法统计模型的知识图谱。
9.如权利要求8所述的装置,其特征在于,所述词典构建单元包括:
信息遍历模块,用于根据所述搭配信息遍历所述文本语料,计算所述搭配信息的词频;
对应模块,用于建立所述搭配信息与词频的对应关系,并保存所述对应关系形成所述词典。
10.如权利要求8所述的装置,其特征在于,所述图谱构建单元包括:
词典重构模块,用于以所述词典中搭配信息包含的相邻词作为两相邻节点,按照相邻词的搭配关系连接两相邻节点形成边,并以所述搭配信息的词频标识所述边,构建得到所述知识图谱。
11.如权利要求7所述的装置,其特征在于,所述语句优化单元包括:
路径搜索模块,用于以所述不合理语句中的每一个词作为路径起点,按照所述知识图谱中边的输出方向搜索得到多条路径;
词频计算模块,用于计算每一条路径包含的所有边的词频总和;
语句映射模块,用于将词频总和最大的路径所包含的各节点映射为自然语言语句,所述自然语言语句即为所述优化结果。
12.如权利要求11所述的装置,其特征在于,所述语句优化单元还包括:
节点数量确定模块,用于确定所述多条路径中每一条路径中的节点数量;
节点数量判断模块,用于判断所述多条路径中每一条路径中的节点数量是否大于预设阈值;
相应的,所述词频计算模块用于计算所述多条路径中节点数量大于预设阈值的每一条路径包含的所有边的词频总和。
CN201610656926.5A 2016-08-11 2016-08-11 自然语言生成语句的优化方法及装置 Active CN106294325B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610656926.5A CN106294325B (zh) 2016-08-11 2016-08-11 自然语言生成语句的优化方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610656926.5A CN106294325B (zh) 2016-08-11 2016-08-11 自然语言生成语句的优化方法及装置

Publications (2)

Publication Number Publication Date
CN106294325A true CN106294325A (zh) 2017-01-04
CN106294325B CN106294325B (zh) 2019-01-04

Family

ID=57670164

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610656926.5A Active CN106294325B (zh) 2016-08-11 2016-08-11 自然语言生成语句的优化方法及装置

Country Status (1)

Country Link
CN (1) CN106294325B (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107797991A (zh) * 2017-10-23 2018-03-13 南京云问网络技术有限公司 一种基于依存句法树的知识图谱扩充方法及系统
CN108460017A (zh) * 2018-02-28 2018-08-28 百度在线网络技术(北京)有限公司 语料泛化方法、装置、电子设备及可读存储介质
CN108733636A (zh) * 2017-04-25 2018-11-02 北京庖丁科技有限公司 文字中提取多元组的方法和装置
CN110442734A (zh) * 2019-08-13 2019-11-12 海南大学 基于数据图谱、信息图谱和知识图谱的交互区域划分及传输优化处理机制
CN110717022A (zh) * 2019-09-18 2020-01-21 平安科技(深圳)有限公司 一种机器人对话生成方法、装置、可读存储介质及机器人
CN110795562A (zh) * 2019-10-29 2020-02-14 腾讯科技(深圳)有限公司 图谱优化方法、装置、终端及存储介质
WO2020063092A1 (zh) * 2018-09-30 2020-04-02 北京国双科技有限公司 知识图谱的处理方法及装置
WO2020113918A1 (zh) * 2018-12-06 2020-06-11 平安科技(深圳)有限公司 基于语义解析的语句合理性判断方法、装置、计算机设备
CN111639195A (zh) * 2020-06-01 2020-09-08 北京明略软件系统有限公司 一种知识图谱的显示方法、显示装置及可读存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040193401A1 (en) * 2003-03-25 2004-09-30 Microsoft Corporation Linguistically informed statistical models of constituent structure for ordering in sentence realization for a natural language generation system
CN101566998A (zh) * 2009-05-26 2009-10-28 华中师范大学 一种基于神经网络的中文问答系统
CN103699663A (zh) * 2013-12-27 2014-04-02 中国科学院自动化研究所 一种基于大规模知识库的热点事件挖掘方法
CN103885938A (zh) * 2014-04-14 2014-06-25 东南大学 基于用户反馈的行业拼写错误检查方法
CN105095195A (zh) * 2015-07-03 2015-11-25 北京京东尚科信息技术有限公司 基于知识图谱的人机问答方法和系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040193401A1 (en) * 2003-03-25 2004-09-30 Microsoft Corporation Linguistically informed statistical models of constituent structure for ordering in sentence realization for a natural language generation system
CN101566998A (zh) * 2009-05-26 2009-10-28 华中师范大学 一种基于神经网络的中文问答系统
CN103699663A (zh) * 2013-12-27 2014-04-02 中国科学院自动化研究所 一种基于大规模知识库的热点事件挖掘方法
CN103885938A (zh) * 2014-04-14 2014-06-25 东南大学 基于用户反馈的行业拼写错误检查方法
CN105095195A (zh) * 2015-07-03 2015-11-25 北京京东尚科信息技术有限公司 基于知识图谱的人机问答方法和系统

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108733636A (zh) * 2017-04-25 2018-11-02 北京庖丁科技有限公司 文字中提取多元组的方法和装置
CN108733636B (zh) * 2017-04-25 2021-07-13 北京庖丁科技有限公司 文字中提取多元组的方法和装置
CN107797991B (zh) * 2017-10-23 2020-11-24 南京云问网络技术有限公司 一种基于依存句法树的知识图谱扩充方法及系统
CN107797991A (zh) * 2017-10-23 2018-03-13 南京云问网络技术有限公司 一种基于依存句法树的知识图谱扩充方法及系统
CN108460017A (zh) * 2018-02-28 2018-08-28 百度在线网络技术(北京)有限公司 语料泛化方法、装置、电子设备及可读存储介质
CN108460017B (zh) * 2018-02-28 2019-07-30 百度在线网络技术(北京)有限公司 语料泛化方法、装置、电子设备及可读存储介质
WO2020063092A1 (zh) * 2018-09-30 2020-04-02 北京国双科技有限公司 知识图谱的处理方法及装置
WO2020113918A1 (zh) * 2018-12-06 2020-06-11 平安科技(深圳)有限公司 基于语义解析的语句合理性判断方法、装置、计算机设备
CN110442734A (zh) * 2019-08-13 2019-11-12 海南大学 基于数据图谱、信息图谱和知识图谱的交互区域划分及传输优化处理机制
CN110442734B (zh) * 2019-08-13 2020-11-17 海南大学 基于数据图谱、信息图谱和知识图谱的交互区域划分及传输优化处理方法
CN110717022A (zh) * 2019-09-18 2020-01-21 平安科技(深圳)有限公司 一种机器人对话生成方法、装置、可读存储介质及机器人
CN110795562A (zh) * 2019-10-29 2020-02-14 腾讯科技(深圳)有限公司 图谱优化方法、装置、终端及存储介质
CN111639195A (zh) * 2020-06-01 2020-09-08 北京明略软件系统有限公司 一种知识图谱的显示方法、显示装置及可读存储介质
CN111639195B (zh) * 2020-06-01 2023-03-21 北京明略软件系统有限公司 一种知识图谱的显示方法、显示装置及可读存储介质

Also Published As

Publication number Publication date
CN106294325B (zh) 2019-01-04

Similar Documents

Publication Publication Date Title
CN106294325A (zh) 自然语言生成语句的优化方法及装置
CN105893349B (zh) 类目标签匹配映射方法及装置
CN104008106B (zh) 一种获取热点话题的方法及装置
CN109739939A (zh) 知识图谱的数据融合方法和装置
CN106940679A (zh) 数据处理方法及装置
CN105224959A (zh) 排序模型的训练方法和装置
CN103268348A (zh) 一种用户查询意图识别方法
CN105608200A (zh) 一种网络舆论趋势预测分析方法
CN102123172B (zh) 一种基于神经网络聚类优化的Web服务发现的实现方法
CN103870474A (zh) 一种新闻话题组织方法及装置
CN103729359A (zh) 一种推荐搜索词的方法及系统
CN103116639A (zh) 基于用户-物品二分图模型的物品推荐方法及系统
CN103324666A (zh) 一种基于微博数据的话题跟踪方法及装置
CN104077280A (zh) 社区发现并行化方法和系统、主节点和运算节点设备
CN106202482A (zh) 一种基于用户行为分析的网站优化方法及系统
CN103186612A (zh) 一种词汇分类的方法、系统和实现方法
CN105893362A (zh) 获取知识点语义向量的方法、确定相关知识点的方法及系统
CN103473380A (zh) 一种计算机文本情感分类方法
CN105740310A (zh) 一种用于问答系统中的自动答案摘要方法及系统
CN103871404A (zh) 一种语言模型的训练方法、查询方法和对应装置
CN103095849A (zh) 基于QoS属性预测和纠错的有监督Web服务发现方法及系统
CN103885977A (zh) 一种网页数据的分类方法、装置和系统
CN107391564A (zh) 数据转换方法、装置以及电子设备
CN101216836B (zh) 一种网页锚文本去噪系统及方法
CN103324720A (zh) 根据用户状态进行个性化推荐的方法和系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant