CN107918606A - 具象名词识别方法及装置 - Google Patents

具象名词识别方法及装置 Download PDF

Info

Publication number
CN107918606A
CN107918606A CN201711226646.1A CN201711226646A CN107918606A CN 107918606 A CN107918606 A CN 107918606A CN 201711226646 A CN201711226646 A CN 201711226646A CN 107918606 A CN107918606 A CN 107918606A
Authority
CN
China
Prior art keywords
sentence
noun
word
tool
candidate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201711226646.1A
Other languages
English (en)
Other versions
CN107918606B (zh
Inventor
邵翔宇
乔忠良
万韶华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Xiaomi Mobile Software Co Ltd
Original Assignee
Beijing Xiaomi Mobile Software Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Xiaomi Mobile Software Co Ltd filed Critical Beijing Xiaomi Mobile Software Co Ltd
Priority to CN201711226646.1A priority Critical patent/CN107918606B/zh
Publication of CN107918606A publication Critical patent/CN107918606A/zh
Application granted granted Critical
Publication of CN107918606B publication Critical patent/CN107918606B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本公开是关于一种具象名词识别方法及装置,属于语言处理领域,该方法包括:从待识别的第一句子中删除预设非具象名词,得到第二句子;基于第二名词库,获取所述第二句子中的至少一个候选具象名词,所述第二名词库用于衡量所述第一句子中的任一单词是否为正确名词;基于所述至少一个候选具象名词,获取所述第一句子中的至少一个正确具象名词。本公开提供了一种可以准确识别具象名词的方式。

Description

具象名词识别方法及装置
技术领域
本公开是关于语言处理领域,具体来说是关于一种具象名词识别方法及装置。
背景技术
随着语言处理技术的发展,在语义分析、聊天机器人等各种应用场景中,经常需要从句子中识别出名词,以便后续根据名词进一步地分析和处理。
相关技术提供了可以确定词性标识的NLP(Natural Language Processing,自然语言处理)工具,NLP工具包括pattern、TextBlob(文本处理工具)或NLTK(NaturalLanguage Toolkit,自然语言处理工具包)等。终端可以采用任一种NLP工具,对句子进行解析,得到句子中每个单词的词性标识,当词性标识指示名词时,确定单词为名词。
发明内容
本公开提供了一种具象名词识别方法及装置,可以解决相关技术只能识别名词而不能识别具象名词的问题。所述技术方案如下:
根据本公开实施例的第一方面,提供了一种具象名词识别方法,所述方法包括:
从待识别的第一句子中删除预设非具象名词,得到第二句子;
基于第二名词库,获取所述第二句子中的至少一个候选具象名词,所述第二名词库用于衡量所述第一句子中的任一单词是否为正确名词;
基于所述至少一个候选具象名词,获取所述第一句子中的至少一个正确具象名词。
本实施例提供的方法,提供了一种基于句子识别具象名词的方式,结合预设非具象名词以及第二名词库来识别句子中的正确具象名词,由于得到的正确具象名词不会包括预设非具象名词且为正确名词,准确性高。
根据本公开实施例的第二方面,提供了一种具象名词识别方法,所述方法包括:
基于待识别的图片,生成至少一个第一句子;
对于所述至少一个第一句子中的每个第一句子,从待识别的第一句子中删除预设非具象名词,得到第二句子;基于第二名词库,获取所述第二句子中的至少一个候选具象名词,所述第二名词库用于衡量所述第一句子中的任一单词是否为正确名词;基于所述至少一个候选具象名词,获取所述第一句子中的至少一个正确具象名词;
根据所述至少一个第一句子对应的第二句子,对所述多个正确具象名词进行补充,得到所述图片的具象名词识别结果。
本实施例提供的方法,提供了一种基于图片识别具象名词的方式,通过图片生成的至少一个第一句子获取了多个正确具象名词,并根据每个第一句子对应的第二句子对正确具象名词进行了补充,保证得到的具象名词识别结果全面而准确。
根据本公开实施例的第三方面,提供了一种具象名词识别装置,所述装置包括:
删除模块,用于从待识别的第一句子中删除预设非具象名词,得到第二句子;
获取模块,用于基于第二名词库,获取所述第二句子中的至少一个候选具象名词,所述第二名词库用于衡量所述第一句子中的任一单词是否为正确名词;
所述获取模块,还用于基于所述至少一个候选具象名词,获取所述第一句子中的至少一个正确具象名词。
根据本公开实施例的第四方面,提供了一种具象名词识别装置,所述装置包括:
生成模块,用于基于待识别的图片,生成至少一个第一句子;
删除模块,用于对于所述至少一个第一句子中的每个第一句子,从待识别的第一句子中删除预设非具象名词,得到第二句子;基于第二名词库,获取所述第二句子中的至少一个候选具象名词,所述第二名词库用于衡量所述第一句子中的任一单词是否为正确名词;基于所述至少一个候选具象名词,获取所述第一句子中的至少一个正确具象名词;
补充模块,用于根据所述至少一个第一句子对应的第二句子,对所述多个正确具象名词进行补充,得到所述图片的具象名词识别结果。
根据本公开实施例的第五方面,提供了一种具象名词识别装置,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为:
从待识别的第一句子中删除预设非具象名词,得到第二句子;
基于第二名词库,获取所述第二句子中的至少一个候选具象名词,所述第二名词库用于衡量所述第一句子中的任一单词是否为正确名词;
基于所述至少一个候选具象名词,获取所述第一句子中的至少一个正确具象名词。
根据本公开实施例的第六方面,提供了一种具象名词识别装置,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为:
基于待识别的图片,生成至少一个第一句子;
对于所述至少一个第一句子中的每个第一句子,从待识别的第一句子中删除预设非具象名词,得到第二句子;基于第二名词库,获取所述第二句子中的至少一个候选具象名词,所述第二名词库用于衡量所述第一句子中的任一单词是否为正确名词;基于所述至少一个候选具象名词,获取所述第一句子中的至少一个正确具象名词;
根据所述至少一个第一句子对应的第二句子,对所述多个正确具象名词进行补充,得到所述图片的具象名词识别结果。
根据本公开实施例的第七方面,提供了一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现第一方面和/或第二方面所述方法的步骤。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。
图1是根据一示例性实施例示出的一种具象名词识别方法的流程图;
图2是根据一示例性实施例示出的一种具象名词识别方法的流程图;
图3是根据一示例性实施例示出的一种名词识别方法的流程图;
图4是根据一示例性实施例示出的一种具象名词识别方法的流程图;
图5是根据一示例性实施例示出的一种具象名词识别方法的流程图;
图6是根据一示例性实施例示出的一个图片;
图7是根据一示例性实施例示出的一种具象名词识别装置的框图;
图8是根据一示例性实施例示出的一种具象名词识别装置的框图;
图9是根据一示例性实施例示出的一种具象名词识别装置的框图;
图10是根据一示例性实施例示出的一种具象名词识别装置的框图。
具体实施方式
为使本公开的目的、技术方案和优点更加清楚明白,下面结合实施方式和附图,对本公开做进一步详细说明。在此,本公开的示意性实施方式及其说明用于解释本公开,但并不作为对本公开的限定。
图1是根据一示例性实施例示出的一种具象名词识别方法的流程图,如图1所示,包括以下步骤:
在步骤101中,从待识别的第一句子中删除预设非具象名词,得到第二句子。
在步骤102中,基于第二名词库,获取该第二句子中的至少一个候选具象名词,该第二名词库用于衡量该第一句子中的任一单词是否为正确名词。
在步骤103中,基于该至少一个候选具象名词,获取该第一句子中的至少一个正确具象名词。
本实施例提供的方法,提供了一种基于句子识别具象名词的方式,结合预设非具象名词以及第二名词库来识别句子中的正确具象名词,由于得到的正确具象名词不会包括预设非具象名词且为正确名词,准确性高。
在一种可能的设计中,该从待识别的第一句子中删除预设非具象名词,得到第二句子,包括以下至少一项:
当该第一句子包含预设数字单词集合中的任一数字单词时,从该第一句子中删除该数字单词,该预设数字单词集合包括至少一个数字单词;
当该第一句子包含预设颜色单词集合中的任一颜色单词时,从该第一句子中删除该颜色单词,该预设颜色单词集合包括至少一个颜色单词;
当该第一句子包含预设物主代词单词集合中的任一代词时,从该第一句子中删除该代词,该预设物主代词单词集合包括至少一个代词;
当该第一句子包含第一预设词组集合中的任一词组时,从该第一句子中删除该词组,该第一预设词组集合包括至少一个词组,该至少一个词组中每个词组的语义不为具象名词,且该每个词组中的单词依次为名词、介词和名词。
在一种可能的设计中,该基于第二名词库,获取该第二句子中的至少一个候选具象名词,包括:
当该第二句子中的任一单词属于该第二名词库时,将该单词作为候选具象名词;或,
当该第二句子中的任一单词属于该第二名词库,且该单词不属于喻体单词集合时,将该单词作为候选具象名词,该喻体单词集合包括至少一个在该第二句子中充当具象名词的喻体的单词。
在一种可能的设计中,该当该第二句子中的任一单词属于该第二名词库,且该单词不属于喻体单词集合时,将该单词作为候选具象名词之前,该方法还包括:
当该第二句子中包括预设物主代词时,获取该第二句子中该预设物主代词之后的第一个单词,将该第一个单词添加至该喻体单词集合中。
在一种可能的设计中,该从待识别的第一句子中删除预设非具象名词,得到第二句子之后,该方法还包括:
获取第二预设词组集合,该第二预设词组集合包括至少一个词组,该至少一个词组中每个词组的语义为具象名词,且该每个词组包括形容词和具象名词,且该每个词组删除形容词后的语义和删除形容词前的语义不同
当该第二句子中包括第二预设词组集合中的任一词组时,将该词组中的形容词作为候选具象名词。
在一种可能的设计中,该从待识别的第一句子中删除预设非具象名词,得到第二句子之后,该方法还包括:
当该第二句子中包括of时,获取该第二句子中该of的前一个单词;
当该至少一个候选具象名词中包括该of的前一个单词时,从该至少一个候选具象名词中删除该of的前一个单词。
在一种可能的设计中,该基于该至少一个候选具象名词,获取该第一句子中的至少一个正确具象名词,包括:
对于该至少一个候选具象名词中的每个候选具象名词,将该候选具象名词和该候选具象名词的单词位置标识组成字符串,得到至少一个字符串;
当该至少一个字符串中任意两个字符串的单词位置标识连续时,将该两个字符串聚合为一个字符串;
删除每个字符串中的单词位置标识,将得到的至少一个单词作为该第一句子中的正确具象名词。
在一种可能的设计中,该当该至少一个字符串中任意两个字符串的单词位置标识连续时,将该两个字符串聚合为一个字符串之前,该方法包括:
当该至少一个字符串中任意N个字符串的单词位置标识连续时,从该至少一个字符串中删除单词位置标识排在前N-1位的每个字符串,该N为不小于3的正整数。
图2是根据一示例性实施例示出的一种具象名词识别方法的流程图,如图2所示,包括以下步骤:
在步骤201中,基于待识别的图片,生成至少一个第一句子。
在步骤202中,对于该至少一个第一句子中的每个第一句子,从待识别的第一句子中删除预设非具象名词,得到第二句子;基于第二名词库,获取该第二句子中的至少一个候选具象名词,该第二名词库用于衡量该第一句子中的任一单词是否为正确名词;基于该至少一个候选具象名词,获取该第一句子中的至少一个正确具象名词。
在步骤203中,根据该至少一个第一句子对应的第二句子,对该多个正确具象名词进行补充,得到该图片的具象名词识别结果。
本实施例提供的方法,提供了一种基于图片识别具象名词的方式,通过图片生成的至少一个第一句子获取了多个正确具象名词,还根据每个第一句子对应的第二句子对正确具象名词进行了补充,保证得到的具象名词识别结果全面而准确。
在一种可能的设计中,该根据该至少一个第一句子对应的第二句子,对该多个正确具象名词进行补充,得到该图片的具象名词识别结果,包括:
对于至少一个第二句子中的每个第二句子,当该第二句子包括第二名词库中的任一词组时,将该词组添加至该第二句子对应的词组集合中;
将得到的至少一个词组集合中的每个词组添加至该多个正确具象名词中。
在一种可能的设计中,该根据该至少一个第一句子对应的第二句子,对该多个正确具象名词进行补充,得到该图片的具象名词识别结果,包括:
对于该至少一个第二句子中的每个第二句子,当该第二句子包括该with,且该with之后的连续的至少一个单词均为该第二句子的正确具象名词时,将该连续的至少一个单词添加至该多个正确具象名词中。
在一种可能的设计中,该根据该至少一个第一句子对应的第二句子,对该多个正确具象名词进行补充,得到该图片的具象名词识别结果,包括:
对补充后的多个正确具象名词进行去重,将去重后的至少一个正确具象名词作为该图片的具象名词识别结果。
图3是根据一示例性实施例示出的一种名词识别方法的流程图,如图3所示,该方法用于电子设备中,包括以下步骤:
在步骤301中,电子设备创建预设名词库。
电子设备可以为终端,例如电脑、手机、平板电脑等。该电子设备也可以为服务器,例如可以是一台服务器、若干台服务器组成的服务器集群或云计算中心。
创建预设名词库的过程具体可以包括以下步骤A1和步骤A2:
步骤A1、电子设备获取词库和词性标识信息。
词库包括同一语种的多个单词,可以为该语种的所有单词。词性标识信息可以用于存储词库中单词的词性标识,包括词库中每个单词的至少一个词性标识,词性标识用于指示对应单词的词性,不同词性的词性标识不同。
步骤A2、电子设备根据词库和词性标识信息,获取词库中在词性标识信息中词性标识指示名词的多个单词,作为预设名词库。
对于词库中的每个单词,电子设备可以获取该单词在词库标识信息中的至少一个词性标识,当该至少一个词性标识中的任一个词性标识指示名词时,将该单词作为预设名词库中的单词。其中,该预设名词库可以表示为一个列表,可以定义为变量NNListAll。
在步骤302中,电子设备获取待识别的第一句子。
本实施例以需要识别名词的原始句子称为第一句子进行说明。
在步骤303中,电子设备基于第一语言处理工具,获取待识别的第一句子中的至少一个候选名词,向预设名词库添加至少一个候选名词,得到第一名词库。
本步骤303具体可以包括以下步骤B1-步骤B3:
步骤B1、电子设备将预设名词库添加至第一名词库中。
步骤B2、对第一句子进行格式处理。
步骤B3、电子设备基于第一语言处理工具,获取第一句子中的至少一个候选名词,将该至少一个候选名词添加至第一名词库中。
候选名词是指属于第一句子且词性标识为预设名词类词性标识的单词,该候选名词很可能是第一句子中的名词。预设名词类词性标识用于指示名词,例如,预设名词类词性标识可以包括单数形式的普通名词的词性标识、复数形式的普通名词的词性标识、单数形式的专有名词的词性标识、复数形式的专有名词的词性标识中的至少一个。
关于获取候选名词的具体过程,电子设备可以通过第一语言处理工具,对第一句子进行解析,得到第一句子中每个单词的词性标识,对于第一句子中的每个单词,当单词的词性标识为预设名词类词性标识时,将该单词作为候选名词,从而得到第一句子中词性标识为预设名词类词性标识的至少一个候选名词。其中,针对获取词性标识的过程,电子设备可以运行第一语言处理工具,对第一句子执行词性批注指令,得到词性识别结果,从词性识别结果中获取单词的词性标识,该词性标识批注结果包括句子中的每个单词和对应的词性标识。
针对该第一语言处理工具,为了提高准确性,可以将多种语言处理工具中识别预设名词类词性标识指示的单词最准确的语言处理工具作为第一语言处理工具。其中,通过对现有的语言处理工具进行大量实验发现,相对于其他语言处理工具来说,pattern确定预设名词类词性标识最准确,则可以将pattern作为第一语言处理工具。
在步骤304中,电子设备基于至少一个第二语言处理工具,获取第一句子中的至少一个非名词,从第一名词库中删除至少一个非名词,得到第二名词库。
由于第一语言处理工具识别的单词的词性标识可能并不准确,可能误将句子中的非名词识别为名词,导致电子设备误将非名词添加至第一名词库中。因此,电子设备会基于至少一个第二语言处理工具,获取至少一个非名词,从第一名词库删除这些非名词,得到的第二名词库不包括非名词,相对于第一名词库来说更加准确。其中,非名词包括第一句子中的过去分词、动名词、现在分词、非第三人称单数形式的动词、动词原形、第三人称单数形式的动词中的至少一个。
针对该至少一个第二语言处理工具,通过对现有的语言处理工具进行大量实验发现,发现每种语言处理工具具有自己的特性,某一种语言工具可能识别某种词性标识指示的单词比其他语言处理工具更准确,而识别另一种词性标识指示的单词则比其他语言处理工具准确性差。例如,pattern识别识别名词、过去分词、现在分词和动名词最准确,TextBlob的Tags指令识别非第三人称单数形式的动词最准确,TextBlob的Parse指令识别动词原形最准确,NLTK识别第三人称单数形式的动词最准确。结合该规律,可以将至少一种第二语言处理工具的优势结合起来,采用每种语言处理工具负责识别其最擅长的词性标识(即该语言处理工具识别最准确的词性标识),进而对第一名词库进行多次过滤,保证最终得到准确的第二名词库。
生成第二名词库的过程具体可以包括以下步骤C1-步骤C6的至少一项:
步骤C1、基于pattern,获取第一句子中过去分词,从第一名词库中删除过去分词。
本步骤C1中,由于pattern为多种语言处理工具中识别过去分词最准确的语言处理工具,电子设备通过采用pattern作为第二语言处理工具,识别出第一句子中的过去分词,能够保证识别到的过去分词较为准确。当然,电子设备也可以将其他识别过去分词准确性高的语言处理工具作为识别过去分词所采用的第二语言分词工具,对此不做限定。
步骤C2、基于pattern,获取第一句子中的动名词或现在分词,从第一名词库中删除动名词或现在分词。
本步骤C2中,由于pattern为多种语言处理工具中识别动名词或现在分词最准确的语言处理工具,电子设备通过采用pattern作为第二语言处理工具,识别出第一句子中的动名词或现在分词,能够保证识别到的动名词或现在分词较为准确。当然,电子设备也可以通过其他识别动名词或现在分词准确性高的语言处理工具识别动名词或现在分词,对此不做限定。
步骤C3、基于TextBlob的Tags指令,获取第一句子中的非第三人称单数形式的动词,从第一名词库中删除非第三人称单数形式的动词。
本步骤C3中,由于TextBlob为多种语言处理工具中识别非第三人称单数形式的动词最准确的语言处理工具,而TextBlob提供的Tags指令又比TextBlob提供的其他指令来讲识别非第三人称单数形式的动词更准确,电子设备通过TextBlob,执行Tags指令,识别出第一句子中的非第三人称单数形式的动词,能够保证识别到的非第三人称单数形式的动词较为准确。当然,电子设备也可以通过其他识别非第三人称单数形式的动词准确性高的语言处理工具以及指令来识别非第三人称单数形式的动词,对此不做限定。
步骤C4、电子设备基于TextBlob的Parse指令,获取第一句子中的动词原形,从第一名词库删除动词原形。
本步骤C4中,由于TextBlob为多种语言处理工具中识别动词原形最准确的语言处理工具,而TextBlob提供的Parse指令又比TextBlob提供的其他指令来讲识别动词原形更准确,电子设备通过TextBlob,执行Parse指令,识别出第一句子中的动词原形,能够保证识别到的动词原形较为准确。当然,电子设备也可以通过其他识别动词原形准确性高的语言处理工具以及指令来识别动词原形,对此不做限定。
步骤C5、电子设备基于NLTK,获取第一句子中的第三人称单数形式的动词,从第一名词库中删除第三人称单数形式的动词。
本步骤C5中,由于NLTK为多种语言处理工具中识别第三人称单数形式的动词最准确的语言处理工具,电子设备通过NLTK识别出第一句子中的第三人称单数形式的动词,能够保证识别到的第三人称单数形式的动词较为准确。当然,电子设备也可以通过其他识别第三人称单数形式的动词准确性高的语言处理工具以及指令来识别第三人称单数形式的动词,对此不做限定。
步骤C6、当第一句子中任一单词的最后一个字母为s,且单词的词性标识不为预设名词类词性标识,且单词在第一句子中的上一个单词的词性标识为预设名词类词性标识时,电子设备将该单词作为非名词,从第一名词库中删除该单词。
本步骤C6为从第一名词库中删除第三人称单数形式的动词的另一种方式。
在步骤305中,当第一句子中的任一单词属于第二名词库时,电子设备确定单词为第一句子中的正确名词。
当得到第二名词库后,可以将第二名词库作为验证句子中的任一单词是否为正确名词的标准,即,当句子中任一单词属于第二名词库时,确定该单词为第一句子中的正确名词,当句子中任一单词不属于第二名词库时,确定该单词不为第一句子中的正确名词。
上述图3实施例提供一种识别名词的方法,在该方法的基础上,本公开实施例还提供了一种基于句子的具象名词识别方法,该方法可以应用于涉及语义分析的各种场景中,例如当应用于用户与聊天机器人之间进行智能问答的场景中,当用户输入待识别的第一句子后,电子设备可以从第一句子中获取具象名词,将具象名词作为用户想要表达的关键内容,针对该具象名词进行自动回复。又如,可以应用于为用户输入的文字进行智能翻译的场景,当用户输入某语种的段落后,电子设备可以将段落切分为多个第一句子,分别从每个第一句子获取具象名词,根据每个第一句子所包括的具象名词分析语义,以便针对确定的语义将段落翻译成另一语种,返回给用户。
参见图4,其示出了一种具象名词识别方法的流程图,该方法的执行主体为电子设备,该方法包括以下步骤:
步骤401、电子设备从待识别的第一句子中删除预设非具象名词,得到第二句子。
为了尽可能去掉第一句子中的非具象名词,避免非具象名词对后续提取具象名词过程造成干扰,本实施例中预先确定了预设非具象名词,当第一句子中包括预设非具象名词时,从第一句子中删除预设非具象名词,得到第二句子。
其中,预设非具象名词可以包括数字单词、颜色单词、颜色词组、第一预设词组集合中的词组的至少一项。删除预设非具象名词的过程具体可以包括以下步骤步骤D1-步骤D4的至少一项:
步骤D1、当该第一句子包含预设数字单词集合中的任一数字单词时,电子设备从该第一句子中删除该数字单词,该预设数字单词集合包括至少一个数字单词。
数字单词是指语义为数字的单词,数字单词通常用于充当具象名词的形容词,表示具象名词的数量,语义并不为具象名词。因此,当第一句子中包含数字单词时,电子设备会从第一句子中删除数字单词,以免数字单词对后续识别具象名词的过程造成干扰。
为了识别数字单词,本实施例中引入了预设数字单词集合,对于第一句子中的任一单词来说,可以通过判断该单词是否属于预设数字单词集合,来识别出该单词是否为数字单词。其中,预设数字单词集合包括至少一个数字单词,以该预设数字单词集合定义为列表NumList为例,预设数字单词集合可以如下所示:
NumList=["one","two","three","four","five","six","seven","eight","nine","ten","eleven","twelve","thirteen","fourteen","fifteen","sixteen","seveteen","eighteen","nine teen","twenty"]。
关于删除数字单词的过程,可以将句子中的数字单词替换为空字符串。以数字单词定义为变量NumEle,待识别的句子定义为变量sentencefrstr为例,删除数字单词的代码块具体可以如下所示:
sentencefrstr=sentencefrstr.replace(Num,"")
步骤D2、当第一句子包含预设颜色单词集合中的任一颜色单词时,电子设备从该第一句子中删除该颜色单词,预设颜色单词集合包括至少一个颜色单词。
颜色单词是指语义为颜色的单词,颜色单词通常用于充当具象名词的形容词,表示具象名词的颜色,语义并不为具象名词。因此,当第一句子中包含颜色单词时,电子设备会从第一句子中删除颜色单词,以免颜色单词对后续识别具象名词的过程造成干扰。
为了识别颜色单词,本实施例中引入了预设颜色单词集合,对于第一句子中的任一单词来说,可以通过判断该单词是否属于预设颜色单词集合,来识别出该单词是否为颜色单词。其中,预设颜色单词集合包括至少一个颜色单词,以预设颜色单词集合定义为变量ColorList为例,预设颜色单词集合可以如下所示:
ColorList=["red","orange","yellow","green","indigo","blue","purple","pink","vi olet","black","white"];
关于删除颜色单词的过程,可以将句子中的颜色单词替换为空字符串。以颜色单词定义为变量ColorEle,待识别的句子定义为变量sentencefrstr为例,删除颜色单词的代码块具体可以如下所示:
sentencefrstr=sentencefrstr.replace(ColorEle,"")
步骤D3、当该第一句子包含预设代词单词集合中的任一单词时,电子设备从该第一句子中删除该代词,预设代词单词集合包括至少一个代词。
代词是指用于指代上下文中的人或物体的单词,代词通常用于指代具象名词,考虑到如果不结合上下文分析,将代词从上下文剥离时无法直接分析出其指代的人或物体,例如,对于代词others,如果不结合others出现的上下文,无法获知others是指哪些人或哪些物体,因此识别出代词的意义不大。并且,代词本身和其指代的具象名词语义相同,在识别出其指代的具象名词时,如果还识别出代词,会造成对同一具象名词的重复识别。因此,本实施例中将代词作为非具象名词,当第一句子中包含代词时,电子设备会从第一句子中删除代词,以免代词对后续识别具象名词的过程造成干扰。
为了识别代词,本实施例引入了预设代词单词集合,对于第一句子中的任一单词来说,可以通过判断该单词是否属于预设代词单词集合,来识别出该单词是否为代词。
进一步地,通过实验分析,发现对于常用的各个代词来说,others和I被语言处理工具识别为句子中的名词的概率较大,可能会属于第二名词库,则需要设置预设代词集合包括others和I中的至少一个,以免当句子中包括others或I时,由于others或I属于第二名词库而后续被误识别为候选具象名词,而其他代词被语言处理工具识别为第一句子的名词的概率较小,不会属于第二名词库,也就不会被识别为候选具象名词,则电子设备可以无需将其他代词纳入预设代词集合中。
步骤D4、当该第一句子包含第一预设词组集合中的任一词组时,电子设备从该第一句子中删除该词组,该第一预设词组集合包括至少一个词组,该至少一个词组中每个词组中的单词依次为名词、介词和名词。
在实际应用中,句子中可能出现由名词+介词+名词组成的词组,例如step bystep等。这种词组中虽然也包括名词,但这种名词通常并不能从词组中割裂出来单独分析语义,也并不是要表达实际的物体,而是通过构成词组,作为句子中的形容词或副词,来形容某种动作或状态。因此,本实施例中会从第一句子中删除这种词组,以便这种词组对后续识别具象名词的过程造成干扰。
为了识别名词+介词+名词组成的词组,本实施例引入了第一预设词组集合包括至少一个词组,可以通过判断第一句子中的任一词组是否属于第一预设词组集合,来识别出该词组是否为名词+介词+名词组成的词组。以第一预设词组集合定义为变量NnInNnList为例,第一预设词组集合可以如下所示:
NnInNnList=["side by side","face to face","back to back","hand inhand","one by one","neck and neck","step by step"];
关于删除词组的过程,可以将句子中的词组替换为空字符串。以第一预设词组集合定义为变量NnInNnList,以第一预设词组集合中的任一词组定义为变量NnInNnListEle,待识别的句子定义为变量sentencefrstr为例,删除词组的代码块具体可以如下所示:
sentencefrstr=sentencefrstr.replace(NnInNnListEle,"");
在步骤402中,电子设备基于第二名词库,获取第二句子中的至少一个候选具象名词。
本步骤具体可以包括以下两种可能的设计:
在第一种可能的设计中,当第二句子中的任一单词属于第二名词库时,将该单词作为候选具象名词。
在上述图3实施例,电子设备已经获取该第二句子的第二名词库,该第二名词库能够用于确定句子中的任一单词是否为正确名词,那么,由于第二句子不包括预设非具象名词,则第二句子中属于第二名词库的单词为句子中的正确名词且不为预设非具象名词,因此可以作为候选具象名词。其中,获取第二句子的第二名词库的过程参见上述图3实施例,在此不做赘述。
在第二种可能的设计中,当该第二句子中的任一单词属于该第二名词库,且该单词不属于喻体单词集合时,将该单词作为候选具象名词,该喻体单词集合包括至少一个在该第二句子中充当具象名词的喻体的单词。
考虑到实际应用中句子可能会采用比喻的修辞手法,采用具象名词充当本体,另一名词充当喻体,将具象名词比喻为该名词。而该名词本身的语义(从句子中剥离开单独看的语义)和在句子中的语义不同,不能将该名词也作为句子中的具象名词,以免该名词本身的语义和其对应的本体的语义之间产生混淆,造成整个句子产生歧义。例如,对于以下第二句子
第二句子:<S>a cargo airplane with its nose opened for maintenance</S>
该第二句子中将飞机的雷达罩比喻为人的鼻子(nose),而如果将nose识别为具象名词,会产生这个句子中包含真实的“人的鼻子”的歧义。
对于这种包括“A像B”、“A仿佛B”、“A是B”,而B(喻体)必须根据A(本体)才能确定语义,脱离开A的本身语义会发生改变的第二句子,本实施例中可以从第二句子中获取候选具象名词时,要求候选具象名词不包括B,以免后续识别具象名词时受到B的干扰。
结合该构思,本设计中,当第二句子采用了比喻的修辞手法时,会获取第二句子的喻体单词集合,喻体单词集合中的每个单词充当具象名词的喻体的单词,对于第二句子中的每个单词,电子设备可以当该单词属于第二名词库且不属于喻体单词集合时,才将该单词作为候选具象名词,以保证候选具象名词为句子中的名词,且不为预设非具象名词,且不用于充当喻体。
其中,获取喻体单词集合的过程具体可以为:当该第二句子中包括预设物主代词时,电子设备获取该第二句子中该预设物主代词之后的第一个单词,将该第一个单词添加至该喻体单词集合中。
结合实际实验分析,发现句子中预设物主代词之后的第一个单词通常充当具象名词的喻体,则当第二句子包括至少一个预设物主代词时,电子设备可以获取每个预设物主代词之后的第一个单词,将这些单词组成喻体单词集合。其中,该预设物主代词可以为its、it’s等。
以喻体单词集合定义为afterItsStrOneWord_inSentencefrstr_inNNList,第二句子定义为变量为sentencefrstr为例,第二句子和对应的喻体单词集合可以如下所示:
sentencefrstr="a cow laying on a green field next to it's baby"
afterItsStrOneWord_inSentencefrstr_inNNList=['11#baby']。
在步骤403中,当第二句子包括第二预设词组集合中的任一词组时,电子设备将该词组中的形容词作为候选具象名词。
在实际应用中,句子中经常会出现形容词+具象名词组成的词组,而这种词组中的具象名词的本身的语义和词组的语义不同,即,如果词组中不加上形容词,语义就会发生改变,必须补充上形容词才能准确地确定词组的语义。例如对于词组hot dogs(热狗)来说,其本身的语义为一种食物,与词组中具象名词dogs(狗)的语义不同。
当第二句子包括形容词+具象名词组成的词组时,为了避免从第二句子中提取候选具象名词时,只将具象名词作为候选具象名词,而忽略了候选具象名词的形容词,造成候选具象名词产生歧义,本实施例中会将这种词组中的形容词也补充到候选具象名词中,以使提取的具象名词更加准确。
为了识别第二句子中的这类词组,本实施例引入了第二预设词组集合,该第二预设词组集合包括至少一个词组,该至少一个词组中每个词组的语义为具象名词,且每个词组包括形容词和具象名词,且每个词组删除形容词后的语义和删除形容词前的语义不同,当第二句子中包括第二预设词组集合中的任一词组时,将词组中的形容词作为候选具象名词。
以第二句子定义为变量sentencefrstr,第二预设词组集合包括hot dogs为例,对于待识别的句子:sentencefrstr="two girls are eating hot dogs in a mall”,由于hot在sentencefrstrSplit中是第6个单词,候选具象名词会添加"5#hot"。
在步骤404中,当至少一个候选具象名词中包括of的前一个单词时,电子设备从至少一个候选具象名词中删除of的前一个单词。
发明人认识到,句子中of的前一个单词通常为量词等无意义的词,例如couple、row、flock、crowd、stack、bottle、side、line、number、bunch、bin等,这种单词会干扰具象名词的识别过程,因此电子设备可以判断第二句子中是否包括of,当第二句子中包括of时,获取第二句子中of的前一个单词,从至少一个候选具象名词中删除of的前一个单词。
进一步地,电子设备可以确定第二句子中of之前连续属于至少一个字符串的多个单词,从至少一个候选具象名词中中删除这些单词。例如,当第二句子中of的前一个单词属于至少一个候选具象名词时,电子设备可以删除该前一个单词,并判断更前一个单词(即前一个单词的前一个单词,也就是of之前的倒数第2个单词)是否也属于至少一个候选具象名词,当更前一个单词也属于至少一个候选具象名词时,从至少一个候选具象名词中删除更前一个单词对应的字符串,并继续判断再前一个单词,直到遍历第二句子中的第一个单词位置。而当更前一个单词不属于至少一个字符串时,则跳出循环。
以第二句子定义为变量为sentencefrstr为例,至少一个字符串定义为列表matchWordsListTmp为例,matchWordsListTmp删除of的前一个单词之前和删除of的前一个单词之后可以如下所示:
sentencefrstr="a group of men riding on the back of a white boat"
删除操作前matchWordsListTmp=['1#group','3#men','4#riding','7#back','11#boat']
删除操作后matchWordsListTmp=['3#men','4#riding','11#boat'];
在步骤405中,电子设备基于至少一个候选具象名词,获取第一句子中的至少一个正确具象名词。
本步骤405可以包括以下步骤E1至步骤E5。
步骤E1、对于该至少一个候选具象名词中的每个候选具象名词,将该候选具象名词和该候选具象名词的单词位置标识组成字符串,得到至少一个字符串。
单词位置标识用于指示对应单词在句子的所有单词中所处的顺序,可以为数字,例如,当某单词为句子中的第1个单词时,单词位置标识可以为0,当某单词为句子中的第3个单词时,单词位置标识可以为4。单词位置标识也可以为字母,例如,当某单词为句子中的第1个单词时,单词位置标识可以为a,当某单词为句子中的第3个单词时,单词位置标识可以为d。当然,单词位置标识也可以为其他能够标注顺序的字符。
字符串包括单词和对应的单词位置标识,还可以包括单词和单词位置标识之间的分隔符,该分隔符可以为#。示例性的,某单词boat为句子中的第12个单词,单词位置标识为13,该单词的字符串可以表示为'11#boat'。
示例性地,以第二句子定义为变量sentencefrstr,得到的至少一个字符串定义为列表matchWordsListTmp为例,第二句子和matchWordsListTmp可以分别如下所示:
sentencefrstr="a group of men riding on the back of a white boat"
matchWordsListTmp=['1#group','3#men','7#back','11#boat']。
步骤E2、当该至少一个字符串中任意N个字符串的单词位置标识连续时,从该至少一个字符串中删除单词位置标识排在前N-1位的每个字符串,该N为不小于3的正整数。
经过实验分析,发现对于句子中单词位置连续、且数量在三个以上的名词组合来说,很大概率下,名词组合中的最后一个名词为具象名词,而名词组合中的其他名词用来修饰最后一个名词,而并不为具象名词。为此,当句子中包括这种名词组合时,可以要求只包括最后一个名词的字符串,而删除该名词之前的每个单词的字符串,以使结果更加准确。
为此,对于步骤E1中得到的至少一个字符串中的每个字符串,电子设备可以获取该字符串的单词位置标识,判断至少一个字符串中是否包括与该单词位置标识相邻的其他字符串,以便确定至少一个字符串中单词位置标识连续的N个字符串,当至少一个字符串包括单词位置标识连续的N个字符串时,电子设备可以从至少一个字符串中删除该N个字符串中的前N-1个字符串,例如删除4个字符串中的单词位置标识排在前3位的3个字符串,3个字符串中的单词位置标识排在前2位的2个字符串等。其中,N的数值可以根据实际需求确定。
以第二句子定义为变量为sentencefrstr为例,至少一个字符串定义为列表matchWordsListTmp为例,matchWordsListTmp删除字符串之前和删除字符串之后可以如下所示:
sentencefrstr="a vintage propeller plane hanging in a display"
removefList函数删除操作前matchWordsListTmp=['1#vintage','2#propeller','3#plane','7#display']
removefList函数删除操作后matchWordsListTmp=['3#plane','7#display'];
需要说明的是,对于句子中单词位置连续、且数量为两个的名词组合来说,很可能这种名词组合为词组,其中的两个名词均为具象名词,因此本步骤中未从至少一个字符串中删除位置标识连续的2个字符串中的第1个字符串,以避免误删除具象名词。
步骤E3、当该至少一个字符串中任意两个字符串的单词位置标识连续时,将该两个字符串聚合为一个字符串。
步骤E4、删除每个字符串中的单词位置标识,将得到的至少一个单词作为该第一句子中的正确具象名词。
对于至少一个字符串中的任意两个字符串,当这两个字符串的单词位置标识连续时,表明这两个字符串很可能是词组,则电子设备可以将这两个字符串聚合为一个字符串,再从聚合后的至少一个字符串删除每个字符串的单词位置标识,当然还可以删除单词和单词位置标识之间的分隔符,从而将至少一个字符串的格式转换为正确具象名词的格式。
示例性地,至少一个字符串可以定义为列表matchWordsListTmp,可以如下所示:
matchWordsListTmp=['1#living','2#room','5#couches','6#chairs','9#water','10#cooler','15#wood','16#floor']
具象名词集合可以定义为变量matchWordsListStrAlltmp,matchWordsListTmp进行聚合和格式转换后得到的matchWordsListStrAlltmp可以如下所示:
matchWordsListStrAlltmp="living room,couches chairs,water cooler,wood floor";
另外,当至少一个字符串中任意两个字符串的单词位置标识均不连续时,表明至少一个字符串中不包括词组,电子设备可以直接从至少一个字符串删除每个字符串的单词位置标识,当然还可以删除单词和单词位置标识之间的分隔符,从而将至少一个字符串的格式转换为具象名词集合。
示例性地,至少一个字符串可以定义为列表matchWordsListTmp,可以如下所示:matchWordsListTmp=['5#room','9#window']
具象名词集合可以定义为变量matchWordsListStrAlltmp,matchWordsListTmp格式转换后得到的matchWordsListStrAlltmp可以如下所示:
matchWordsListStrAlltmp="room,window";
本实施例提供的方法,提供了一种基于句子识别具象名词的方式,结合预设非具象名词以及第二名词库来识别句子中的正确具象名词,由于得到的正确具象名词不会包括预设非具象名词且为正确名词,准确性高。
上述图4实施例提供了一种基于句子的具象名词识别的方法,在该方法的基础上,本公开实施例还提供了一种基于图片的具象名词识别方法,通过本方法,可以获取图片的具象名词识别结果,该具象名词识别结果可以应用于基于图片进行检索、对图片进行分类等涉及分析图片的场景中。
例如,当应用于基于图片进行检索的场景中,当用户想要针对拍摄的图片进行检索时,搜索引擎可以通过图片获取具象名词识别结果,将具象名词识别结果中的具象名词作为要搜索的关键词,通过具象名词进行搜索,能够提高搜索的准确性。
又如,当应用于对图片进行分类的场景中,当需要对大量图片进行分类时,电子设备可以通过图片获取具象名词识别结果,通过具象名词识别结果获取图片的分类结果,从而提高得到的图片的分类结果的全面性和准确性。
参见图5,其示出了一种具象名词识别方法的流程图,该方法的执行主体为电子设备,包括以下步骤:
在步骤501中,电子设备基于待识别的图片,生成至少一个第一句子。
针对获取待识别的图片的过程,电子设备可以启动摄像头模组来拍摄图片,或者获取用户从图库中导入的图片,或者从服务器下载图片,或者获取其他电子设备发送的图片,当然也可以通过其它方式获取图片。
针对根据图片生成第一句子的过程,电子设备可以采用CNN算法,对图片进行特征提取,得到图片的特征数据,再采用RNN算法,对特征数据进行计算,生成待识别的句子。
可选地,电子设备还可以预先确定句子的数目,按照该数目生成句子。该数目可以根据实际确定,可以为5或其他数目。
在一个示例性场景中,电子设备可以基于图6所示的图片生成以下5个第一句子:
第一句子1:"<S>a living room filled with furniture on top of a hardwood floor.</S>"
第一句子2:"<S>a living room with big couches and a ceiling fan</S>"
第一句子3:"<S>a living room filled with couches chairs and a watercooler sitting on a hard wood floor</S>"
第一句子4:"<S>living room with wood floor tv couches and chair.</S>"
第一句子5:"<S>a very big nice looking room with a bright window.</S>"
在步骤502中,电子设备对于该至少一个第一句子中的每个第一句子,从第一句子中删除预设非具象名词,得到第二句子。
在步骤503中,电子设备基于第二名词库,获取该第二句子中的至少一个候选具象名词,该第二名词库用于衡量该第一句子中的任一单词是否为正确名词。
在步骤504中,电子设备基于该至少一个候选具象名词,获取该第一句子中的至少一个正确具象名词。
步骤502-步骤504的具体过程参见上述图5实施例,在此不做赘述。
在步骤505中,对于至少一个第二句子中的每个第二句子,当该第二句子包括第二名词库中的任一词组时,电子设备将该词组添加至该第二句子对应的词组集合中;将得到的至少一个词组集合中的每个词组添加至该多个正确具象名词中。
为了避免具象名词识别结果遗漏词组的情况,本步骤中会根据第二句子获取词组集合,通过词组集合对聚合具象名词集合进行补充,以保证具象名词识别结果更加全面。
针对获取至少一个词组集合的过程,对于该至少一个第二句子中的每个第二句子,电子设备可以获取该第二句子中属于第二名词库中的至少一个词组,组成该第二句子的词组集合。其中,词组是指包括两个以及两个以上的单词的组合。
可选地,电子设备得到至少一个词组集合后,可以对至少一个词组集合进行聚合,得到聚合词组集合,再将聚合词组集合添加至聚合具象名词集合中。
基于上述步骤501中5个第一句子的举例,这5个第一句子得到的5个第二句子中属于第二名词库的词组为living room,则以聚合词组集合定义为变量matchWordsListStrAllPhrase为例,聚合词组集合可以如下所示:
matchWordsListStrAllPhrase+="living room,"
在步骤506中,对于至少一个第二句子中的每个第二句子,当第二句子包括with,且with之后的连续的至少一个单词均为第二句子的候选具象名词时,电子设备将连续的至少一个单词添加至多个正确具象名词中。
发明人认识到,对于任意一个句子,当该句子中包括with时,with之后的候选具象名词为正确具象名词的概率很大。结合这一构思,在得到至少一个第二句子时,对于该至少一个第二句子中的每个第二句子,电子设备可以判断该第二句子是否包括with,当第二句子中包括with时,判断with之后的第一个单词是否为该第二句子的候选具象名词,当该第一个单词不是候选具象名词,则结束。当该第一个单词是候选具象名词,则将该第一个单词添加至正确具象名词,再判断with之后的第二个单词是否为该第二句子的候选具象名词,以此类推。也就是,只要电子设备确定with后的某一个单词不是候选具象名词时,即停止判断过程,不再判断该单词之后的单词是否为候选具象名词,也就不会将该单词之后的单词添加至候选具象名词中。
示例性地,第二句子定义为变量sentencefrstr,至少一个字符串定义为列表matchWordsListTmp、with之后的连续的至少一个单词定义为变量matchWordsListStrAllWith,某个第二句子的matchWordsListStrAllWith可以如下所示:
sentencefrstr="living room with wood floor tv couches and chair"
matchWordsListTmp=['1#room','3#wood','4#floor','5#tv','6#couches','8#chair']
matchWordsListStrAllWith+="wood floor tv couches,"
其中,将with之后的连续的至少一个单词添加至多个正确具象名词的过程可以包括以下步骤G1-步骤G4,为了便于描述,某个第二句子中with之后的连续的至少一个单词在此称为该第二句子的with单词集合,待添加的多个正确具象名词称为聚合具象名词集合。
步骤G1、将至少一个with单词集合聚合为聚合with单词集合。
电子设备会将至少一个第二句子的with单词集合聚合为一个集合,作为聚合with单词集合。
步骤G2、对聚合with单词集合进行去重。
可选地,电子设备可以从聚合with单词集合中删除相同的单词,以免聚合with单词集合中的单词重复。
步骤G3、对聚合with单词集合和聚合具象名词集合进行分词。
可选地,电子设备可以对聚合with单词集合进行分词,将聚合with单词集合中的不同单词和词组之间通过分隔符隔开,还可以对聚合具象单词集合进行分词,将聚合具象单词集合中的不同单词和词组之间通过分隔符隔开。该分隔符可以为“,”。
步骤G4、对于聚合with单词集合中的第一字符串,当第一字符串中不包含聚合具象名词集合中第二字符串中的任一单词时,从聚合with单词集合中删除第一字符串。
由于聚合with单词集合中可能会包括空字符串、空格等无意义元素,本步骤G4中,对于聚合with单词集合中的至少一个字符串,只保留其中包含至少一个属于聚合具象名词集合中的单词的字符串。
以聚合with单词集合中的任一字符串称为第一字符串为例,对于该第一字符串中的每个单词,电子设备可以判断该单词是否属于聚合具象名词集合中的任一字符串,当该第一字符串中的任一单词属于聚合具象名词集合中的任一字符串时,保留该第一字符串,当该第一字符串中的每个单词均不属于聚合具象名词集合中的任一字符串时,从聚合with单词集合中删除该第一字符串。
示例性地,基于上述步骤G3的举例,聚合with单词集合(matchWordsListStrAllWithSplit)包括空字符串”,在本步骤G4中,由于”不包括聚合具象名词集合(matchWordsListStrAllFivetmpSplit)中的任一单词,则会将”作为第一字符串,删除第一字符串后的聚合with单词集合可以如下所示:
matchWordsListStrAllWithSplit=['wood floor tv couches','coucheschairs'];
步骤G5、对于聚合with单词集合中的第一字符串,当第一字符串包含聚合具象名词集合中的第二字符串时,从第一字符串中删除第二字符串.
考虑到聚合with单词集合和聚合具象名词集合中的字符串可能发生重叠,即出现两个集合中的字符串包括相同单词的情况,电子设备可以从聚合with单词集合中的字符串中去掉属于聚合具象名词集合中的部分,从而避免后续将聚合with单词集合添加至聚合具象名词集合后,聚合具象名词集合包括内容重复的字符串。
示例性地,基于上述步骤G3和步骤G4的举例,以聚合with单词集合(matchWordsListStrAllWithSplit)中的第一字符串为'wood floor tv couches'为例,其中'wood floor'、'couches'为聚合具象名词集合的字符串,则电子设备会将'woodfloor'、'couches'作为第二字符串,从'wood floor tv couches'中删除'wood floor'、'couches',得到'tv'。以聚合with单词集合(matchWordsListStrAllWithSplit)中的第一字符串为'couches chairs'为例,其中'couches'为聚合具象名词集合的字符串,则电子设备会将'couches'作为第二字符串,从'couches chairs'中删除'couches',得到'chairs',最终得到的聚合with单词集合可以如下所示:
matchWordsListStrAllWithSplit=['tv','chairs'];
步骤G6、去除聚合with单词集合中字符串的空格。
由于聚合with单词集合中字符串的首尾可能会出现无意义的空格,对于聚合with单词集合中的任一字符串,当该字符串中的第一个字符为空格时,电子设备可以从字符串删除第一个字符,当字符串中的最后一个字符为空格时,电子设备可以从字符串中删除最后一个字符。
示例性地,基于上述步骤G5的举例,去除空格后的聚合with单词集合可以如下所示:
matchWordsListStrAllWithSplit=['tv','chairs']
步骤G7、将聚合with单词集合添加至聚合具象名词集合中。
电子设备可以直接将聚合with单词集合中的所有单词添加至聚合具象名词集合,将添加了聚合with单词集合的聚合具象名词集合作为具象名词识别结果,也可以先为具象名词识别结果定义一个变量,将聚合具象名词集合中的所有单词和聚合with单词集合中的所有单词添加至该变量中,将该变量作为具象名词识别结果。
示例性地,基于上述步骤G1-步骤G6的举例,以具象名词识别结果定义为变量matchWordsListStrAll为例,最终得到的具象名词识别结果可以如下所示:
matchWordsListStrAll="room,furniture,wood floor,couches,ceiling fan,couches chairs,water cooler,chair,window,living room,tv,chairs"。
需要说明的是,上述过程仅是以将with之后的连续的至少一个候选具象名词添加至正确具象名词中为例,在实施中,对于至少一个第二句子中的每个第二句子,也可以不要求这些候选具象名词在第二句子中的位置连续,电子设可以判断第二句子中是否包括with,当第二句子中包括with时,对于with之后的每个单词,判断该单词是否为该第二句子的候选具象名词,当该单词为候选具象名词时,即将该添加至正确具象名词中,直至判断至第二句子的最后一个单词为止。
在步骤507中,电子设备对补充后的多个正确具象名词进行去重,将去重后的至少一个正确具象名词作为该图片的具象名词识别结果。
考虑到对正确具象名词进行补充后,得到的所有具象名词可能会重复,电子设备可以对补充后的多个正确具象名词进行去重,即,当任意两个或两个以上具象名词相同时,只保留其中的一个具象名词。
本实施例提供的方法,提供了一种基于图片识别具象名词的方式,通过图片生成的至少一个第一句子获取了多个正确具象名词,还根据每个第一句子对应的第二句子对正确具象名词进行了补充,保证得到的具象名词识别结果全面而准确。
图7是根据一示例性实施例示出的一种具象名词识别装置的框图。参见图7,该装置包括删除模块701和获取模块702。
删除模块701,用于从待识别的第一句子中删除预设非具象名词,得到第二句子;
获取模块702,用于基于第二名词库,获取该第二句子中的至少一个候选具象名词,该第二名词库用于衡量该第一句子中的任一单词是否为正确名词;
该获取模块702,还用于基于该至少一个候选具象名词,获取该第一句子中的至少一个正确具象名词。
本实施例提供的装置,提供了一种基于句子识别具象名词的方式,结合预设非具象名词以及第二名词库来识别句子中的正确具象名词,由于得到的正确具象名词不会包括预设非具象名词且为正确名词,准确性高。
在一种可能的设计中,该删除模块701,还用于执行以下至少一项:
当该第一句子包含预设数字单词集合中的任一数字单词时,从该第一句子中删除该数字单词,该预设数字单词集合包括至少一个数字单词;
当该第一句子包含预设颜色单词集合中的任一颜色单词时,从该第一句子中删除该颜色单词,该预设颜色单词集合包括至少一个颜色单词;
当该第一句子包含预设物主代词单词集合中的任一代词时,从该第一句子中删除该代词,该预设物主代词单词集合包括至少一个代词;
当该第一句子包含第一预设词组集合中的任一词组时,从该第一句子中删除该词组,该第一预设词组集合包括至少一个词组,该至少一个词组中每个词组的语义不为具象名词,且该每个词组中的单词依次为名词、介词和名词。
在一种可能的设计中,该获取模块702,还用于当该第二句子中的任一单词属于该第二名词库时,将该单词作为候选具象名词;或,当该第二句子中的任一单词属于该第二名词库,且该单词不属于喻体单词集合时,将该单词作为候选具象名词,该喻体单词集合包括至少一个在该第二句子中充当具象名词的喻体的单词。
在一种可能的设计中,该装置还包括:
添加模块,用于当该第二句子中包括预设物主代词时,获取该第二句子中该预设物主代词之后的第一个单词,将该第一个单词添加至该喻体单词集合中。
在一种可能的设计中,该获取模块702,还用于获取第二预设词组集合,该第二预设词组集合包括至少一个词组,该至少一个词组中每个词组的语义为具象名词,且该每个词组包括形容词和具象名词,且该每个词组删除形容词后的语义和删除形容词前的语义不同;
该装置还包括:确定模块,用于当该第二句子中包括第二预设词组集合中的任一词组时,将该词组中的形容词作为候选具象名词。
在一种可能的设计中,该装置还包括:
该获取模块702,还用于当该第二句子中包括of时,获取该第二句子中该of的前一个单词;
该删除模块701,还用于当该至少一个候选具象名词中包括该of的前一个单词时,从该至少一个候选具象名词中删除该of的前一个单词。
在一种可能的设计中,该获取模块702,还用于:对于该至少一个候选具象名词中的每个候选具象名词,将该候选具象名词和该候选具象名词的单词位置标识组成字符串,得到至少一个字符串;当该至少一个字符串中任意两个字符串的单词位置标识连续时,将该两个字符串聚合为一个字符串;删除每个字符串中的单词位置标识,将得到的至少一个单词作为该第一句子中的正确具象名词。
在一种可能的设计中,该删除模块701,还用于当该至少一个字符串中任意N个字符串的单词位置标识连续时,从该至少一个字符串中删除单词位置标识排在前N-19位的每个字符串,该N为不小于3的正整数。
图8是根据一示例性实施例示出的一种具象名词识别装置,参见图8,该装置包括:生成模块801、删除模块802和补充模块803。
生成模块801,用于基于待识别的图片,生成至少一个第一句子;
删除模块802,用于对于该至少一个第一句子中的每个第一句子,从待识别的第一句子中删除预设非具象名词,得到第二句子;基于第二名词库,获取该第二句子中的至少一个候选具象名词,该第二名词库用于衡量该第一句子中的任一单词是否为正确名词;基于该至少一个候选具象名词,获取该第一句子中的至少一个正确具象名词;
补充模块803,用于根据该至少一个第一句子对应的第二句子,对该多个正确具象名词进行补充,得到该图片的具象名词识别结果。
本实施例提供的装置,提供了一种基于图片识别具象名词的方式,通过图片生成的至少一个第一句子获取了多个正确具象名词,还根据每个第一句子对应的第二句子对正确具象名词进行了补充,保证得到的具象名词识别结果全面而准确。
在一种可能的设计中,该补充模块803,还用于对于至少一个第二句子中的每个第二句子,当该第二句子包括第二名词库中的任一词组时,将该词组添加至该第二句子对应的词组集合中;将得到的至少一个词组集合中的每个词组添加至该多个正确具象名词中。
在一种可能的设计中,该补充模块803,还用于对于该至少一个第二句子中的每个第二句子,当该第二句子包括该with,且该with之后的连续的至少一个单词均为该第二句子的正确具象名词时,将该连续的至少一个单词添加至该多个正确具象名词中。
在一种可能的设计中,该补充模块803,还用于对补充后的多个正确具象名词进行去重,将去重后的至少一个正确具象名词作为该图片的具象名词识别结果。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
上述所有可选技术方案,可以采用任意结合形成本公开的可选实施例,在此不再一一赘述。
图9是根据一示例性实施例示出的一种具象名词识别装置900的框图。例如,装置900可以是移动电话,计算机,数字广播装置,消息收发设备,游戏控制台,平板设备,医疗设备,健身设备,个人数字助理等。
参照图9,装置900可以包括以下一个或多个组件:处理组件902,存储器904,电源组件906,多媒体组件908,音频组件910,输入/输出(I/O)的接口912,传感器组件914,以及通信组件916。
处理组件902通常控制装置900的整体操作,诸如与显示,电话呼叫,数据通信,相机操作和记录操作相关联的操作。处理组件902可以包括一个或多个处理器920来执行指令,以完成上述的方法的全部或部分步骤。此外,处理组件902可以包括一个或多个模块,便于处理组件902和其他组件之间的交互。例如,处理组件902可以包括多媒体模块,以方便多媒体组件908和处理组件902之间的交互。
存储器904被配置为存储各种类型的数据以支持在装置900的操作。这些数据的示例包括用于在装置900上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。存储器904可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
电源组件906为装置900的各种组件提供电力。电源组件906可以包括电源管理系统,一个或多个电源,及其他与为装置900生成、管理和分配电力相关联的组件。
多媒体组件908包括在所述装置900和用户之间的提供一个输出接口的屏幕。在一些实施例中,屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中,多媒体组件908包括一个前置摄像头和/或后置摄像头。当装置900处于操作模式,如拍摄模式或视频模式时,前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。
音频组件910被配置为输出和/或输入音频信号。例如,音频组件910包括一个麦克风(MIC),当装置900处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器904或经由通信组件916发送。在一些实施例中,音频组件910还包括一个扬声器,用于输出音频信号。
I/O接口912为处理组件902和外围接口模块之间提供接口,上述外围接口模块可以是键盘,点击轮,按钮等。这些按钮可包括但不限于:主页按钮、音量按钮、启动按钮和锁定按钮。
传感器组件914包括一个或多个传感器,用于为装置900提供各个方面的状态评估。例如,传感器组件914可以检测到装置900的打开/关闭状态,组件的相对定位,例如所述组件为装置900的显示器和小键盘,传感器组件914还可以检测装置900或装置900一个组件的位置改变,用户与装置900接触的存在或不存在,装置900方位或加速/减速和装置900的温度变化。传感器组件914可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件914还可以包括光传感器,如CMOS或CCD图像传感器,用于在成像应用中使用。在一些实施例中,该传感器组件914还可以包括加速度传感器,陀螺仪传感器,磁传感器,压力传感器或温度传感器。
通信组件916被配置为便于装置900和其他设备之间有线或无线方式的通信。装置900可以接入基于通信标准的无线网络,如WiFi,2G或3G,或它们的组合。在一个示例性实施例中,通信组件916经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,所述通信组件916还包括近场通信(NFC)模块,以促进短程通信。例如,在NFC模块可基于射频识别(RFID)技术,红外数据协会(IrDA)技术,超宽带(UWB)技术,蓝牙(BT)技术和其他技术来实现。
在示例性实施例中,装置900可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述具象名词识别方法。
图10是根据一示例性实施例示出的一种具象名词识别装置1000的框图。例如,装置1000可以被提供为一服务器。参照图10,装置1000包括处理组件1022,其进一步包括一个或多个处理器,以及由存储器1032所代表的存储器资源,用于存储可由处理组件1022的执行的指令,例如应用程序。存储器1032中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外,处理组件1022被配置为执行指令,以执行上述具象名词识别方法。
装置1000还可以包括一个电源组件1026被配置为执行装置1000的电源管理,一个有线或无线网络接口1050被配置为将装置1000连接到网络,和一个输入输出(I/O)接口1058。装置1000可以操作基于存储在存储器1032的操作系统,例如Windows ServerTM,MacOS XTM,UnixTM,LinuxTM,FreeBSDTM或类似。
在示例性实施例中,还提供了一种存储有计算机程序的计算机可读存储介质,例如存储有计算机程序的存储器,上述计算机程序被处理器执行时实现上述实施例中的具象名词识别方法。例如,计算机可读存储介质可以是只读内存(ROM)、随机存取存储器(RAM)、只读光盘(CD-ROM)、磁带、软盘和光数据存储设备等。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims (15)

1.一种具象名词识别方法,其特征在于,所述方法包括:
从待识别的第一句子中删除预设非具象名词,得到第二句子;
基于第二名词库,获取所述第二句子中的至少一个候选具象名词,所述第二名词库用于衡量所述第一句子中的任一单词是否为正确名词;
基于所述至少一个候选具象名词,获取所述第一句子中的至少一个正确具象名词。
2.根据权利要求1所述的方法,其特征在于,所述从待识别的第一句子中删除预设非具象名词,得到第二句子,包括以下至少一项:
当所述第一句子包含预设数字单词集合中的任一数字单词时,从所述第一句子中删除所述数字单词,所述预设数字单词集合包括至少一个数字单词;
当所述第一句子包含预设颜色单词集合中的任一颜色单词时,从所述第一句子中删除所述颜色单词,所述预设颜色单词集合包括至少一个颜色单词;
当所述第一句子包含预设物主代词单词集合中的任一代词时,从所述第一句子中删除所述代词,所述预设物主代词单词集合包括至少一个代词;
当所述第一句子包含第一预设词组集合中的任一词组时,从所述第一句子中删除所述词组,所述第一预设词组集合包括至少一个词组,所述至少一个词组中每个词组的语义不为具象名词,且所述每个词组中的单词依次为名词、介词和名词。
3.根据权利要求1所述的方法,其特征在于,所述基于第二名词库,获取所述第二句子中的至少一个候选具象名词,包括:
当所述第二句子中的任一单词属于所述第二名词库时,将所述单词作为候选具象名词;或,
当所述第二句子中的任一单词属于所述第二名词库,且所述单词不属于喻体单词集合时,将所述单词作为候选具象名词,所述喻体单词集合包括至少一个在所述第二句子中充当具象名词的喻体的单词。
4.根据权利要求3所述的方法,其特征在于,所述当所述第二句子中的任一单词属于所述第二名词库,且所述单词不属于喻体单词集合时,将所述单词作为候选具象名词之前,所述方法还包括:
当所述第二句子中包括预设物主代词时,获取所述第二句子中所述预设物主代词之后的第一个单词,将所述第一个单词添加至所述喻体单词集合中。
5.根据权利要求1所述的方法,其特征在于,所述从待识别的第一句子中删除预设非具象名词,得到第二句子之后,所述方法还包括:
获取第二预设词组集合,所述第二预设词组集合包括至少一个词组,所述至少一个词组中每个词组的语义为具象名词,且所述每个词组包括形容词和具象名词,且所述每个词组删除形容词后的语义和删除形容词前的语义不同
当所述第二句子中包括第二预设词组集合中的任一词组时,将所述词组中的形容词作为候选具象名词。
6.根据权利要求1所述的方法,其特征在于,所述从待识别的第一句子中删除预设非具象名词,得到第二句子之后,所述方法还包括:
当所述第二句子中包括of时,获取所述第二句子中所述of的前一个单词;
当所述至少一个候选具象名词中包括所述of的前一个单词时,从所述至少一个候选具象名词中删除所述of的前一个单词。
7.根据权利要求1所述的方法,其特征在于,所述基于所述至少一个候选具象名词,获取所述第一句子中的至少一个正确具象名词,包括:
对于所述至少一个候选具象名词中的每个候选具象名词,将所述候选具象名词和所述候选具象名词的单词位置标识组成字符串,得到至少一个字符串;
当所述至少一个字符串中任意两个字符串的单词位置标识连续时,将所述两个字符串聚合为一个字符串;
删除每个字符串中的单词位置标识,将得到的至少一个单词作为所述第一句子中的正确具象名词。
8.一种具象名词识别方法,其特征在于,所述方法包括:
基于待识别的图片,生成至少一个第一句子;
对于所述至少一个第一句子中的每个第一句子,从待识别的第一句子中删除预设非具象名词,得到第二句子;基于第二名词库,获取所述第二句子中的至少一个候选具象名词,所述第二名词库用于衡量所述第一句子中的任一单词是否为正确名词;基于所述至少一个候选具象名词,获取所述第一句子中的至少一个正确具象名词;
根据所述至少一个第一句子对应的第二句子,对所述多个正确具象名词进行补充,得到所述图片的具象名词识别结果。
9.根据权利要求8所述的方法,其特征在于,所述根据所述至少一个第一句子对应的第二句子,对所述多个正确具象名词进行补充,得到所述图片的具象名词识别结果,包括:
对于至少一个第二句子中的每个第二句子,当所述第二句子包括第二名词库中的任一词组时,将所述词组添加至所述第二句子对应的词组集合中;
将得到的至少一个词组集合中的每个词组添加至所述多个正确具象名词中。
10.根据权利要求8所述的方法,其特征在于,所述根据所述至少一个第一句子对应的第二句子,对所述多个正确具象名词进行补充,得到所述图片的具象名词识别结果,包括:
对于所述至少一个第二句子中的每个第二句子,当所述第二句子包括所述with,且所述with之后的连续的至少一个单词均为所述第二句子的候选具象名词时,将所述连续的至少一个单词添加至所述多个正确具象名词中。
11.一种具象名词识别装置,其特征在于,所述装置包括:
删除模块,用于从待识别的第一句子中删除预设非具象名词,得到第二句子;
获取模块,用于基于第二名词库,获取所述第二句子中的至少一个候选具象名词,所述第二名词库用于衡量所述第一句子中的任一单词是否为正确名词;
所述获取模块,还用于基于所述至少一个候选具象名词,获取所述第一句子中的至少一个正确具象名词。
12.一种具象名词识别装置,其特征在于,所述装置包括:
生成模块,用于基于待识别的图片,生成至少一个第一句子;
删除模块,用于对于所述至少一个第一句子中的每个第一句子,从待识别的第一句子中删除预设非具象名词,得到第二句子;基于第二名词库,获取所述第二句子中的至少一个候选具象名词,所述第二名词库用于衡量所述第一句子中的任一单词是否为正确名词;基于所述至少一个候选具象名词,获取所述第一句子中的至少一个正确具象名词;
补充模块,用于根据所述至少一个第一句子对应的第二句子,对所述多个正确具象名词进行补充,得到所述图片的具象名词识别结果。
13.一种具象名词识别装置,其特征在于,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为:
从待识别的第一句子中删除预设非具象名词,得到第二句子;
基于第二名词库,获取所述第二句子中的至少一个候选具象名词,所述第二名词库用于衡量所述第一句子中的任一单词是否为正确名词;
基于所述至少一个候选具象名词,获取所述第一句子中的至少一个正确具象名词。
14.一种具象名词识别装置,其特征在于,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为:
基于待识别的图片,生成至少一个第一句子;
对于所述至少一个第一句子中的每个第一句子,从待识别的第一句子中删除预设非具象名词,得到第二句子;基于第二名词库,获取所述第二句子中的至少一个候选具象名词,所述第二名词库用于衡量所述第一句子中的任一单词是否为正确名词;基于所述至少一个候选具象名词,获取所述第一句子中的至少一个正确具象名词;
根据所述至少一个第一句子对应的第二句子,对所述多个正确具象名词进行补充,得到所述图片的具象名词识别结果。
15.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1-7中任一项所述的方法步骤,或权利要求8-10中任一项所述的方法步骤。
CN201711226646.1A 2017-11-29 2017-11-29 具象名词识别方法、装置及计算机可读存储介质 Active CN107918606B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711226646.1A CN107918606B (zh) 2017-11-29 2017-11-29 具象名词识别方法、装置及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711226646.1A CN107918606B (zh) 2017-11-29 2017-11-29 具象名词识别方法、装置及计算机可读存储介质

Publications (2)

Publication Number Publication Date
CN107918606A true CN107918606A (zh) 2018-04-17
CN107918606B CN107918606B (zh) 2021-02-09

Family

ID=61898136

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711226646.1A Active CN107918606B (zh) 2017-11-29 2017-11-29 具象名词识别方法、装置及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN107918606B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109543021A (zh) * 2018-11-29 2019-03-29 北京光年无限科技有限公司 一种面向智能机器人的故事数据处理方法及系统
CN112802569A (zh) * 2021-02-05 2021-05-14 北京嘉和海森健康科技有限公司 一种语义信息的获取方法、装置、设备及可读存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7873509B1 (en) * 1994-09-30 2011-01-18 Budzinski Robert L Memory system for storing and retrieving experience and knowledge with natural language utilizing state representation data, word sense numbers, function codes, directed graphs, context memory, and/or purpose relations
CN102144229A (zh) * 2008-10-02 2011-08-03 国际商业机器公司 用于从具有文本段的文档中提取术语的系统
CN105095179A (zh) * 2014-05-14 2015-11-25 腾讯科技(深圳)有限公司 对用户评价进行处理的方法及装置
CN106502981A (zh) * 2016-10-09 2017-03-15 广西师范大学 基于词性、句法和词典的比喻修辞句自动分析与判定方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7873509B1 (en) * 1994-09-30 2011-01-18 Budzinski Robert L Memory system for storing and retrieving experience and knowledge with natural language utilizing state representation data, word sense numbers, function codes, directed graphs, context memory, and/or purpose relations
CN102144229A (zh) * 2008-10-02 2011-08-03 国际商业机器公司 用于从具有文本段的文档中提取术语的系统
CN105095179A (zh) * 2014-05-14 2015-11-25 腾讯科技(深圳)有限公司 对用户评价进行处理的方法及装置
CN106502981A (zh) * 2016-10-09 2017-03-15 广西师范大学 基于词性、句法和词典的比喻修辞句自动分析与判定方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
COLIN KELLY 等: "Semi-supervised learning for automatic conceptual property extraction", 《 PROCEEDINGS OF THE 3RD WORKSHOP ON COGNITIVE MODELING AND COMPUTATIONAL LINGUISTICS》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109543021A (zh) * 2018-11-29 2019-03-29 北京光年无限科技有限公司 一种面向智能机器人的故事数据处理方法及系统
CN109543021B (zh) * 2018-11-29 2022-03-18 北京光年无限科技有限公司 一种面向智能机器人的故事数据处理方法及系统
CN112802569A (zh) * 2021-02-05 2021-05-14 北京嘉和海森健康科技有限公司 一种语义信息的获取方法、装置、设备及可读存储介质
CN112802569B (zh) * 2021-02-05 2023-08-08 北京嘉和海森健康科技有限公司 一种语义信息的获取方法、装置、设备及可读存储介质

Also Published As

Publication number Publication date
CN107918606B (zh) 2021-02-09

Similar Documents

Publication Publication Date Title
CN110418208B (zh) 一种基于人工智能的字幕确定方法和装置
US20230015606A1 (en) Named entity recognition method and apparatus, device, and storage medium
EP2457183B1 (en) System and method for tagging multiple digital images
WO2020220636A1 (zh) 文本数据增强方法及装置、电子设备、计算机非易失性可读存储介质
WO2015185019A1 (zh) 一种基于语义理解的表情输入方法和装置
CN110647614A (zh) 智能问答方法、装置、介质及电子设备
CN105531758B (zh) 使用外国单词语法的语音识别
CN108268438B (zh) 一种页面内容提取方法、装置以及客户端
CN107644646A (zh) 语音处理方法、装置以及用于语音处理的装置
CN111597804B (zh) 一种实体识别模型训练的方法以及相关装置
CN108345612A (zh) 一种问题处理方法和装置、一种用于问题处理的装置
CN109543014B (zh) 人机对话方法、装置、终端及服务器
CN105930487B (zh) 应用于移动终端的题目搜索方法及装置
CN109002184A (zh) 一种输入法候选词的联想方法和装置
CN113596601A (zh) 一种视频画面的定位方法、相关装置、设备及存储介质
CN104484370B (zh) 基于问答的答案信息发送方法、接收方法、装置及系统
CN107918606A (zh) 具象名词识别方法及装置
CN110169055A (zh) 一种生成镜头信息的方法和装置
CN108268443A (zh) 确定话题点转移以及获取回复文本的方法、装置
CN107885482A (zh) 音频播放方法、装置、存储介质及电子设备
CN109871128B (zh) 一种题型识别方法及装置
CN113157966B (zh) 显示方法、装置及电子设备
CN207051898U (zh) 基于云计算的信息检索分类系统
CN115357720A (zh) 基于bert的多任务新闻分类方法及装置
CN109725798A (zh) 智能角色的切换方法及相关装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant