CN108959264A - 非法网页的判断方法和装置 - Google Patents

非法网页的判断方法和装置 Download PDF

Info

Publication number
CN108959264A
CN108959264A CN201810758143.7A CN201810758143A CN108959264A CN 108959264 A CN108959264 A CN 108959264A CN 201810758143 A CN201810758143 A CN 201810758143A CN 108959264 A CN108959264 A CN 108959264A
Authority
CN
China
Prior art keywords
webpage
sentence
content
text
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN201810758143.7A
Other languages
English (en)
Inventor
董金波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhengzhou Yunhai Information Technology Co Ltd
Original Assignee
Zhengzhou Yunhai Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhengzhou Yunhai Information Technology Co Ltd filed Critical Zhengzhou Yunhai Information Technology Co Ltd
Priority to CN201810758143.7A priority Critical patent/CN108959264A/zh
Publication of CN108959264A publication Critical patent/CN108959264A/zh
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/221Parsing markup language streams
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/253Grammatical analysis; Style critique
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明公开了非法网页的判断方法和装置。该方法包括:如果判断网页包括文本内容,则将网页的文本内容拆分成各个完整的句子;调用自然语言理解模型来判断每个句子的句子结构,并且根据判断出的句子的句子结构,将每个句子拆分成多个词语;根据句子结构,确定各个词语的词性,并且为各个词语添加相应的词性标签;根据带有词性标签的词语所对应的非法内容权重,计算网页的文本内容的非法内容分数,作为网页的非法内容分数;根据网页的非法内容分数,判断网页是否是非法网页。根据词语的权重来确定网页是否是非法网页,可以节省了大量的人工成本以及审核网页所需的时间,减小了人工审核时存在的判断错误的可能性或者遗漏非法网页内容的可能性。

Description

非法网页的判断方法和装置
技术领域
本发明涉及信息识别技术,尤指一种非法网页的判断方法和装置。
背景技术
伴随着互联网事业的迅速发展,互联网中充斥着大量的非法信息,这些非法信息藏匿在网页中,往往并不容易辨别出。目前,为了审核出网页中的非法信息,需要人工查看网页中的文本内容,然而,网页的文本内容更新的速度很快,如果采用人工岔开网页的文本内容的方式来审核的话,需要大量人工,产生巨大的工作量,成本高昂并且所耗费的时间很长;此外,人工在审核网页内容的时候,容易遗漏网页中的边角处的文本,最终造成非法信息并没有被审核出而漏过,审核效果不好。
发明内容
为了解决上述技术问题,本发明提供了一种非法网页的判断方法和装置,其可以减少审核非法网页所耗费的人工以及时间,并且审核效果更好。
一方面,本发明的实施例提供了一种非法网页的判断方法,该方法包括:
判断网页是否包括文本内容和图像内容;
如果网页包括文本内容,则将网页的文本内容拆分成各个完整的句子;
调用自然语言理解模型来判断每个句子的句子结构,并且根据判断出的句子的句子结构,将每个句子拆分成多个词语;
根据句子结构,确定各个词语的词性,并且为各个词语添加相应的词性标签;
根据带有词性标签的词语所对应的非法内容权重,计算网页的文本内容的非法内容分数,作为网页的非法内容分数;
根据网页的非法内容分数,判断网页是否是非法网页。
进一步地,在一个可选的实施例中,该方法还包括:
调用自然语言理解模型并且根据词语的词性,来为词语分配具有词性的词语的初始的非法内容权重;
接收用户定义的词语的非法内容权重以及用户对于词语的词性的定义,采用用户定义的词语的非法内容权重来修改词语的非法内容权重;并且采用对于词语的词性的定义,来训练自然语言理解模型。
进一步地,在一个可选的实施例中,将网页的文本内容拆分成各个完整的句子的步骤包括:
从网页的文本内容中识别出网页的标签,并且删除网页的标签,然后将网页的文本内容拆分成各个完整的句子。
进一步地,在一个可选的实施例中,将网页的文本内容拆分成各个完整的句子的步骤包括:
从网页的文本内容中识别出多种自然语言的具有语义的文本,将多种自然语言中的一种自然语言作为标准自然语言,并且联网查询其他语言的具有语义的文本的标准自然语言的语义,然后按照网页的文本内容的标准自然语言的语义,将网页的文本内容拆分成各个完整的句子。
进一步地,在一个可选的实施例中,在调用自然语言理解模型来判断每个句子的句子结构的步骤之前,该方法还包括:
如果网页中的元素包括图像内容,则调用字符识别工具来识别并且存储图像内容中的的字符,并且将从图像内容中识别出的字符所包括的文本内容拆分成各个完整的句子。
另一方面,本发明的实施例提供了一种非法网页的判断装置,该装置包括:
内容判断模块,用于判断网页是否包括文本内容和图像内容;
句子拆分模块,用于:如果内容判断模块判断网页包括文本内容,则将网页的文本内容拆分成各个完整的句子;
词语拆分模块,用于:调用自然语言理解模型来判断每个句子的句子结构,并且根据判断出的句子的句子结构,将每个句子拆分成多个词语;
词性确定模块,用于:根据句子结构,确定各个词语的词性,并且为各个词语添加相应的词性标签;
权重计算模块,用于:根据带有词性标签的词语所对应的非法内容权重,计算网页的文本内容的非法内容分数,作为网页的非法内容分数;
非法网页判断模块,用于:根据网页的非法内容分数,判断网页是否是非法网页。
进一步地,在一个可选的实施例中,该装置还包括:
初始权重分配模块,用于:调用自然语言理解模型并且根据词语的词性,来为词语分配具有词性的词语的初始的非法内容权重;
权重修改与模型训练模块,用于:接收用户定义的词语的非法内容权重以及用户对于词语的词性的定义,采用用户定义的词语的非法内容权重来修改词语的非法内容权重;并且采用对于词语的词性的定义,来训练自然语言理解模型。
进一步地,在一个可选的实施例中,句子拆分模块用于:
从网页的文本内容中识别出网页的标签,并且删除网页的标签,然后将网页的文本内容拆分成各个完整的句子。
进一步地,在一个可选的实施例中,句子拆分模块用于:
从网页的文本内容中识别出多种自然语言的具有语义的文本,将多种自然语言中的一种自然语言作为标准自然语言,并且联网查询其他语言的具有语义的文本的标准自然语言的语义,然后按照网页的文本内容的标准自然语言的语义,将网页的文本内容拆分成各个完整的句子。
进一步地,在一个可选的实施例中,该装置还包括:
图像内容识别与拆分模块,用于:在词语拆分模块调用自然语言理解模型来判断每个句子的句子结构之前,如果内容判断模块判断网页中的元素包括图像内容,则图像内容识别与拆分模块调用字符识别工具来识别并且存储图像内容中的的字符,并且将从图像内容中识别出的字符所包括的文本内容拆分成各个完整的句子。
本发明的实施例的有益效果在于,通过将网页的内容拆分成各个语义完整的句子,可以以每个句子作为单位进行分析。然后通过自然语言理解模型来判断每个句子的句子结构,并且根据判断出的句子的句子结构,将每个句子拆分成多个词语;通过这种方式,可以确定词语的词性,并且查询具有该词性的词语的非法内容权重;以网页中的词语所对应的非法网页内容权重为基础,可以计算出网页的内容的非法内容分数,作为网页的非法内容分数,进而判断网页是否是非法网页。通过本发明实施例提供的判断方法,可以采取自动化的方式根据词语的权重来确定网页是否是非法网页,节省了大量的人工成本并且节省了审核网页所需的时间,适合互联网事业未来的发展方向;另外,不易遗漏网页中的内容,减小了人工审核时存在的判断错误的可能性或者遗漏非法网页内容的可能性,因此审核的效果更好。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。
附图说明
附图用来提供对本发明技术方案的进一步理解,并且构成说明书的一部分,与本申请的实施例一起用于解释本发明的技术方案,并不构成对本发明技术方案的限制。
图1为本发明实施例提供的非法网页的判断方法的流程图;
图2为本发明的可选的实施例提供的非法网页的判断方法的流程图;
图3为本发明实施例提供的非法网页的判断装置的框图;
图4为本发明的可选的实施例提供的非法网页的判断装置的框图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,下文中将结合附图对本发明的实施例进行详细说明。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互任意组合。
在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行。并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
一方面,本发明的实施例提供了一种非法网页的判断方法,如图1所示,该方法包括步骤S101-步骤S111。
步骤S101,判断网页是否包括文本内容和图像内容。
网页的基本元素主要包括文本内容和图像内容。因此,针对文本内容和图像内容,需要采取不同的处理措施。
步骤S103,如果网页包括文本内容,则将网页的文本内容拆分成各个完整的句子。
在此,可以通过文本符号、间隔符、空格、段落符等各种符号来将网页的文本内容分成各个句子。但不排除通过其他方式将网页的文本内容分成各个句子。
步骤S105,调用自然语言理解模型来判断每个句子的句子结构,并且根据判断出的句子的句子结构,将每个句子拆分成多个词语。
自然语言处理(NLP,Natural Language Processing)是使用自然语言同计算机进行通讯的技术,因为处理自然语言的关键是要让计算机“理解”自然语言,所以自然语言处理又叫做自然语言理解(NLU,Natural Language Understanding),也称为计算语言学(Computational Linguistics)。自然语言理解是人工智能的分支学科。研究用电子计算机模拟人的语言交际过程,使计算机能理解和运用人类社会的自然语言如汉语、英语等,实现人机之间的自然语言通信,以代替人的部分脑力劳动,包括查询资料、解答问题、摘录文献、汇编资料以及一切有关自然语言信息的加工处理。自然语言理解模型用来实现上述的功能。
常规的句子结构包括单句和复句,其中,单句具体包括主谓句(动词谓语句、形容词谓语句、名词谓语句、主谓谓语句)和非主谓句(名词非主谓句、动词非主谓句、形容词非主谓句、叹词非主谓句);复句由多个单句组成,复句之中的多个单句之间的关系包括并列关系、承接关系、递进关系、选择关系、总分关系、转折关系、假设关系、条件关系、因果关系以及目的关系。一个句子可以具有多个组成部分(即句子的成分),各个组成部分包括:主语、谓语、宾语、表语、定语、状语、补足语和同位语。在此调用自然语言理解模型来判断每个句子的句子结构,并且根据判断出的句子的句子结构,将每个句子拆分成多个词语。对于一个句子来说,不同的成分对于句子的语义表达来说,作用是不同的;对于一个词语来说,在各个句子中作为不同的句子成分,表达语义的作用(即,对于语义表达来说的重要性)也是不同的。因此,需要根据词语在句子中的词性,来确定这个词的作用。根据以上的原理,可以通过关注特定词语的词性,来理解网页中所表达的语义,进而确定网页的内容的意思,确定网页是否是非法网页。
步骤S107,根据句子结构,确定各个词语的词性,并且为各个词语添加相应的词性标签。
步骤S109,根据带有词性标签的词语所对应的非法内容权重,计算网页的文本内容的非法内容分数,作为网页的非法内容分数。
步骤S111,根据网页的非法内容分数,判断网页是否是非法网页。
本发明的实施例的有益效果在于,通过将网页的内容拆分成各个语义完整的句子,可以以每个句子作为单位进行分析。然后通过自然语言理解模型来判断每个句子的句子结构,并且根据判断出的句子的句子结构,将每个句子拆分成多个词语;通过这种方式,可以确定词语的词性,并且查询具有该词性的词语的非法内容权重;以网页中的词语所对应的非法网页内容权重为基础,可以计算出网页的内容的非法内容分数,作为网页的非法内容分数,进而判断网页是否是非法网页。通过本发明实施例提供的判断方法,可以采取自动化的方式根据词语的权重来确定网页是否是非法网页,节省了大量的人工成本并且节省了审核网页所需的时间,适合互联网事业未来的发展方向;另外,不易遗漏网页中的内容,减小了人工审核时存在的判断错误的可能性或者遗漏非法网页内容的可能性,因此审核的效果更好。
进一步地,在一个可选的实施例中,该方法还包括:
调用自然语言理解模型并且根据词语的词性,来为词语分配具有词性的词语的初始的非法内容权重;
接收用户定义的词语的非法内容权重以及用户对于词语的词性的定义,采用用户定义的词语的非法内容权重来修改词语的非法内容权重;并且采用对于词语的词性的定义,来训练自然语言理解模型。
在最初调用自然语言理解模型的时候,用户需要根据识别非法网页的实际的情况而为词语分配初始的非法内容权重。此后,当接收到用户定义的词语的非法内容权重的时候,采用用户定义的词语的非法内容权重来词语的非法内容权重,这样可以使为词语分配的非法内容权重逐渐靠近用户的体验和判断。
进一步地,在一个可选的实施例中,步骤S103包括:
从网页的文本内容中识别出网页的标签,并且删除网页的标签,然后将网页的文本内容拆分成各个完整的句子。
网页的文本内容除了具有语义的句子之外,还包括编辑网页时产生的标签,这些标签用于后台的处理以及前端的显示,因此并不能够算作网页的文本内容,需要删除这些标签,之后再将剩下的文本内容拆分成各个句子。
进一步地,在一个可选的实施例中,步骤S103包括:
从网页的文本内容中识别出多种自然语言的具有语义的文本,将多种自然语言中的一种自然语言作为标准自然语言,并且联网查询其他语言的具有语义的文本的标准自然语言的语义,然后按照网页的文本内容的标准自然语言的语义,将网页的文本内容拆分成各个完整的句子。
如图2所示,进一步地,在一个可选的实施例中,在步骤S105之前,该方法还包括步骤S104。
步骤S104,如果网页中的元素包括图像内容,则调用字符识别工具来识别并且存储图像内容中的的字符,并且将从图像内容中识别出的字符所包括的文本内容拆分成各个完整的句子。
可以通过字符识别工具(例如,扫描仪和光学字符识别(Optical CharacterRecognition,简称OCR)软件)将网页的图像内容中所表达的自然语言的语义转换并且输出成字符。然后将图像内容中识别转换并且输出的字符按照上述非法网页的判断方法的步骤S105开始的各步骤进行处理,从而可以判断出图像内容所表达的语义是否包含非法的内容,并且据此判断网页是否是非法网页。
另一方面,本发明实施例还提供了一种非法网页的判断装置,如图3所示,该装置包括内容判断模块201、句子拆分模块203、词语拆分模块205、词性确定模块207、权重计算模块209和非法网页判断模块211。
内容判断模块201用于判断网页是否包括文本内容和图像内容。
句子拆分模块203用于:如果内容判断模块判断网页包括文本内容,则将网页的文本内容拆分成各个完整的句子。
词语拆分模块205用于:调用自然语言理解模型来判断每个句子的句子结构,并且根据判断出的句子的句子结构,将每个句子拆分成多个词语。
词性确定模块207用于:根据句子结构,确定各个词语的词性,并且为各个词语添加相应的词性标签。
权重计算模块209用于:根据带有词性标签的词语所对应的非法内容权重,计算网页的文本内容的非法内容分数,作为网页的非法内容分数。
非法网页判断模块211用于:根据网页的非法内容分数,判断网页是否是非法网页。
进一步地,在一个可选的实施例中,该装置还包括:
初始权重分配模块,用于:调用自然语言理解模型并且根据词语的词性,来为词语分配具有词性的词语的初始的非法内容权重;
权重修改与模型训练模块,用于:接收用户定义的词语的非法内容权重以及用户对于词语的词性的定义,采用用户定义的词语的非法内容权重来修改词语的非法内容权重;并且采用对于词语的词性的定义,来训练自然语言理解模型。
进一步地,在一个可选的实施例中,句子拆分模块203用于:
从网页的文本内容中识别出网页的标签,并且删除网页的标签,然后将网页的文本内容拆分成各个完整的句子。
进一步地,在一个可选的实施例中,句子拆分模块203用于:
从网页的文本内容中识别出多种自然语言的具有语义的文本,将多种自然语言中的一种自然语言作为标准自然语言,并且联网查询其他语言的具有语义的文本的标准自然语言的语义,然后按照网页的文本内容的标准自然语言的语义,将网页的文本内容拆分成各个完整的句子。
如图4所示,进一步地,在一个可选的实施例中,该装置还包括图像内容识别与拆分模块204。
图像内容识别与拆分模块204用于:在词语拆分模块205调用自然语言理解模型来判断每个句子的句子结构之前,如果内容判断模块201判断网页中的元素包括图像内容,则图像内容识别与拆分模块204调用字符识别工具来识别并且存储图像内容中的的字符,并且将从图像内容中识别出的字符所包括的文本内容拆分成各个完整的句子。
虽然本发明所揭露的实施方式如上,但上述的内容仅为便于理解本发明而采用的实施方式,并非用以限定本发明。任何本发明所属领域内的技术人员,在不脱离本发明所揭露的精神和范围的前提下,可以在实施的形式及细节上进行任何的修改与变化,但本发明的专利保护范围,仍须以所附的权利要求书所界定的范围为准。

Claims (10)

1.一种非法网页的判断方法,其特征在于,包括:
判断网页是否包括文本内容和图像内容;
如果所述网页包括文本内容,则将所述网页的文本内容拆分成各个完整的句子;
调用自然语言理解模型来判断每个句子的句子结构,并且根据判断出的句子的句子结构,将每个句子拆分成多个词语;
根据所述句子结构,确定各个词语的词性,并且为各个所述词语添加相应的词性标签;
根据带有所述词性标签的所述词语所对应的非法内容权重,计算所述网页的文本内容的非法内容分数,作为所述网页的非法内容分数;
根据所述网页的非法内容分数,判断所述网页是否是非法网页。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
调用所述自然语言理解模型并且根据词语的词性,来为词语分配具有所述词性的词语的初始的非法内容权重;
接收用户定义的词语的非法内容权重以及用户对于词语的词性的定义,采用所述用户定义的词语的非法内容权重来修改所述词语的非法内容权重;并且采用对于词语的词性的定义,来训练所述自然语言理解模型。
3.根据权利要求1所述的方法,其中,所述将网页的文本内容拆分成各个完整的句子的步骤包括:
从所述网页的文本内容中识别出网页的标签,并且删除网页的标签,然后将所述网页的文本内容拆分成各个完整的句子。
4.根据权利要求1所述的方法,其中,所述将网页的文本内容拆分成各个完整的句子的步骤包括:
从所述网页的文本内容中识别出多种自然语言的具有语义的文本,将所述多种自然语言中的一种自然语言作为标准自然语言,并且联网查询所述其他语言的具有语义的文本的标准自然语言的语义,然后按照所述网页的文本内容的标准自然语言的语义,将所述网页的文本内容拆分成各个完整的句子。
5.根据权利要求1所述的方法,其中,在所述调用自然语言理解模型来判断每个句子的句子结构的步骤之前,所述方法还包括:
如果所述网页中的元素包括图像内容,则调用字符识别工具来识别并且存储所述图像内容中的的字符,并且将从所述图像内容中识别出的字符所包括的文本内容拆分成各个完整的句子。
6.一种非法网页的判断装置,其特征在于,包括:
内容判断模块,用于判断网页是否包括文本内容和图像内容;
句子拆分模块,用于:如果所述内容判断模块判断所述网页包括文本内容,则将所述网页的文本内容拆分成各个完整的句子;
词语拆分模块,用于:调用自然语言理解模型来判断每个句子的句子结构,并且根据判断出的句子的句子结构,将每个句子拆分成多个词语;
词性确定模块,用于:根据所述句子结构,确定各个词语的词性,并且为各个所述词语添加相应的词性标签;
权重计算模块,用于:根据带有所述词性标签的所述词语所对应的非法内容权重,计算所述网页的文本内容的非法内容分数,作为所述网页的非法内容分数;
非法网页判断模块,用于:根据所述网页的非法内容分数,判断所述网页是否是非法网页。
7.根据权利要求6所述的装置,其特征在于,所述装置还包括:
初始权重分配模块,用于:调用所述自然语言理解模型并且根据词语的词性,来为词语分配具有所述词性的词语的初始的非法内容权重;
权重修改与模型训练模块,用于:接收用户定义的词语的非法内容权重以及用户对于词语的词性的定义,采用所述用户定义的词语的非法内容权重来修改所述词语的非法内容权重;并且采用对于词语的词性的定义,来训练所述自然语言理解模型。
8.根据权利要求6所述的装置,其中,所述句子拆分模块用于:
从所述网页的文本内容中识别出网页的标签,并且删除网页的标签,然后将所述网页的文本内容拆分成各个完整的句子。
9.根据权利要求6所述的装置,其中,所述句子拆分模块用于:
从所述网页的文本内容中识别出多种自然语言的具有语义的文本,将所述多种自然语言中的一种自然语言作为标准自然语言,并且联网查询所述其他语言的具有语义的文本的标准自然语言的语义,然后按照所述网页的文本内容的标准自然语言的语义,将所述网页的文本内容拆分成各个完整的句子。
10.根据权利要求6所述的装置,所述装置还包括:
图像内容识别与拆分模块,用于:在所述词语拆分模块调用自然语言理解模型来判断每个句子的句子结构之前,如果所述内容判断模块判断所述网页中的元素包括图像内容,则所述图像内容识别与拆分模块调用字符识别工具来识别并且存储所述图像内容中的的字符,并且将从所述图像内容中识别出的字符所包括的文本内容拆分成各个完整的句子。
CN201810758143.7A 2018-07-11 2018-07-11 非法网页的判断方法和装置 Withdrawn CN108959264A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810758143.7A CN108959264A (zh) 2018-07-11 2018-07-11 非法网页的判断方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810758143.7A CN108959264A (zh) 2018-07-11 2018-07-11 非法网页的判断方法和装置

Publications (1)

Publication Number Publication Date
CN108959264A true CN108959264A (zh) 2018-12-07

Family

ID=64482908

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810758143.7A Withdrawn CN108959264A (zh) 2018-07-11 2018-07-11 非法网页的判断方法和装置

Country Status (1)

Country Link
CN (1) CN108959264A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109710742A (zh) * 2018-12-27 2019-05-03 清华大学 一种个股公告自然语言查询处理的方法、系统及设备

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109710742A (zh) * 2018-12-27 2019-05-03 清华大学 一种个股公告自然语言查询处理的方法、系统及设备

Similar Documents

Publication Publication Date Title
US11816435B1 (en) Applied artificial intelligence technology for contextualizing words to a knowledge base using natural language processing
Lytvyn et al. Analysis of the developed quantitative method for automatic attribution of scientific and technical text content written in Ukrainian
CN112560510B (zh) 翻译模型训练方法、装置、设备及存储介质
CN108763202B (zh) 识别敏感文本的方法、装置、设备及可读存储介质
CN110175229A (zh) 一种基于自然语言进行在线培训的方法和系统
CN110347802A (zh) 一种文本分析方法及装置
CN112131881A (zh) 信息抽取方法及装置、电子设备、存储介质
CN117332072B (zh) 对话处理、语音摘要提取以及目标对话模型训练方法
CN112613315A (zh) 一种文本知识自动抽取方法、装置、设备及存储介质
CN114282498B (zh) 一种应用于电力交易的数据知识处理系统
CN116913278B (zh) 语音处理方法、装置、设备和存储介质
CN108959264A (zh) 非法网页的判断方法和装置
van Engers et al. A case study on automated norm extraction
CN116644765A (zh) 语音翻译方法、语音翻译装置、电子设备及存储介质
CN114417898B (zh) 数据处理方法、装置、设备及可读存储介质
CN113326704B (zh) 基于综合策略的情绪支持对话生成方法及系统
Kang et al. Discourse structure analysis for requirement mining
CN115238711A (zh) 数据处理方法、装置、设备、程序产品及存储介质
JP2016057810A (ja) 述語項構造抽出装置、方法、プログラム、及びコンピュータ読取り可能な記録媒体
WO2023272833A1 (zh) 一种数据检测方法、装置、设备及可读存储介质
KR101559657B1 (ko) 동형이의어 분별에 의한 한국어 의존관계 분석 방법
CN112002325A (zh) 多语种语音交互方法和装置
CN111027308A (zh) 文本生成方法、系统、移动终端及存储介质
Wilson A bridge from the use-mention distinction to natural language processing
CN115098680B (zh) 数据处理方法、装置、电子设备、介质及程序产品

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication
WW01 Invention patent application withdrawn after publication

Application publication date: 20181207