CN107193973A - 语义解析信息的领域识别方法及装置、设备及可读介质 - Google Patents

语义解析信息的领域识别方法及装置、设备及可读介质 Download PDF

Info

Publication number
CN107193973A
CN107193973A CN201710379577.1A CN201710379577A CN107193973A CN 107193973 A CN107193973 A CN 107193973A CN 201710379577 A CN201710379577 A CN 201710379577A CN 107193973 A CN107193973 A CN 107193973A
Authority
CN
China
Prior art keywords
keyword
default field
significance level
template
field
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710379577.1A
Other languages
English (en)
Other versions
CN107193973B (zh
Inventor
瞿琴
胡泽进
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201710379577.1A priority Critical patent/CN107193973B/zh
Publication of CN107193973A publication Critical patent/CN107193973A/zh
Priority to US15/980,233 priority patent/US10777192B2/en
Application granted granted Critical
Publication of CN107193973B publication Critical patent/CN107193973B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/63Querying
    • G06F16/635Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1822Parsing for meaning understanding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/63Querying
    • G06F16/632Query formulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/186Templates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/10Speech classification or search using distance or distortion measures between unknown speech and reference templates
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1815Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/174Form filling; Merging
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Abstract

本发明提供一种语义解析信息的领域识别方法及装置、设备及可读介质。其所述方法包括:获取预设领域中、解析用户输入的语音数据生成语义解析信息所采用的至少一个预设关键词提取模板;各预设关键词提取模板中包括至少一个关键词;根据各关键词提取模板中各关键词在预设领域的重要程度标识,获取各关键词的主题权重;根据各关键词的主题权重计算语音解析信息的主题分值;根据语音解析信息的主题分值识别语音解析信息是否属于预设领域。通过采用本发明的技术方案,可以对语音解析信息所属的领域进行识别,从而可以保证识别的语言解析信息的领域的正确性,进而保证App根据该语义解析信息执行的操作的正确性。

Description

语义解析信息的领域识别方法及装置、设备及可读介质
【技术领域】
本发明涉及计算机应用技术领域,尤其涉及一种语义解析信息的领域识别方法及装置、设备及可读介质。
【背景技术】
为了更加方便用户使用应用(Application;App),现有技术中,很多应用均支持语音输入,这样,用户在使用时仅需要向该App输入语音数据即可,操作简单,使用方便。
具体地,现有技术中,用户在向App输入语音数据之后,App需要对用户输入的语音数据进行语音识别,然后使用预设的每个预设领域的一个或者多个模板(pattern)对语音识别的结果进行语义解析,获取各预设领域中该语音数据对应的语义解析信息。也就是说,该语义解析信息为语音数据具有相同的语义,这样,该App直接根据该语义解析信息,分析用户的需求,从而执行相应的操作,例如,用户可以使用语音数据请求App吊起某个应用,或者发送某条文字信息,或者查询某条信息,或者查询并订购酒店或者机票等等。
但是,现有技术中,解析语义解析信息的时候可能使用了某预设领域的至少一个片段模板,而片段模板包含的信息量较少,不能准确标识对应的领域,导致该语义解析信息是否属于该预设领域的可靠性较低,而现有技术中又未对解析的语义解析信息属于该预设领域的可靠性进行验证,从而导致解析的语义解析信息所属领域错误,App执行与用户输入的语音数据的领域无关的操作。
【发明内容】
本发明提供了一种语义解析信息的领域识别方法及装置、设备及可读介质,用于实现对语义解析信息的领域进行识别。
本发明提供一种语义解析信息的领域识别方法,所述方法包括:
获取预设领域中、解析用户输入的语音数据生成语义解析信息所采用的至少一个预设关键词提取模板;各所述预设关键词提取模板中包括至少一个关键词;
根据各所述预设关键词提取模板中各所述关键词在所述预设领域的重要程度标识,获取各所述关键词的主题权重;
根据各所述关键词的主题权重计算所述语音解析信息的主题分值;
根据所述语音解析信息的主题分值识别所述语音解析信息是否属于所述预设领域。
进一步可选地,如上所述的方法中,获取预设领域中、解析用户输入的语音数据生成语义解析信息所采用的至少一个预设关键词提取模板之前,所述方法还包括:
在各所述预设领域中,设置多个所述预设关键词提取模块,各所述预设关键词提取模板中包括至少两个所述关键词;
在各所述预设领域的各所述预设关键词提取模板中,标识对应的所述预设关键词提取模板中包括的各所述关键词在对应的所述预设领域中的重要程度标识。
进一步可选地,如上所述的方法中,在各所述预设领域的各所述预设关键词提取模板中,标识对应的所述预设关键词提取模板中包括各所述关键词在对应的所述预设领域中的重要程度标识之前,所述方法还包括:
获取各所述预设关键词提取模板中包括的各所述关键词在对应的所述预设领域中的重要程度标识。
进一步可选地,如上所述的方法中,获取各所述预设关键词提取模板中包括的各所述关键词在对应的所述预设领域中的重要程度标识,具体包括:
采集各所述预设领域的数条语料,生成对应的所述预设领域的语料库;
对所述语料库中的各所述语料进行分词,提取各所述语料中的有效分词作为所述语料包括的所述关键词;
统计各所述关键词在所述语料库中的所述数条语料分词后得到的所有所述关键词中出现的频率,作为对应的所述关键词在所述语料库中的词频;
根据各所述关键词在所述语料库中的词频占所述数条语料分词后得到的所有所述关键词出现的频率的概率,为对应的所述关键词设置在所述预设领域的重要程度标识。
进一步可选地,如上所述的方法中,根据各所述关键词提取模板中各所述关键词在所述预设领域的重要程度标识,获取各所述关键词的主题权重,具体包括:
若所述预设关键词提取模板中的所述关键词在所述预设领域的重要程度标识为high,根据所述重要程度标识与主题权重的对应关系,获取所述high对应的主题权重为0;
若所述预设关键词提取模板中的所述关键词在所述预设领域的重要程度标识为middle,根据所述重要程度标识与主题权重的对应关系,获取所述middle对应的主题权重为第一质数;或者
若所述预设关键词提取模板中的所述关键词在所述预设领域的重要程度标识为low,根据所述重要程度标识与主题权重的对应关系,获取所述low对应的主题权重为第二质数;所述第二质数不等于第一质数;所述high标识的所述关键词在所述预设领域的重要程度,高于所述middle标识的所述关键词在所述预设领域的重要程度;所述middle标识的所述关键词在所述预设领域的重要程度,高于所述low标识的所述关键词在所述预设领域的重要程度。
进一步可选地,如上所述的方法中,根据各所述关键词的主题权重计算所述语音解析信息的主题分值,具体包括:
将各所述关键词的主题权重相乘,得到所述语音解析信息的主题分值。
进一步可选地,如上所述的方法中,根据所述语音解析信息的主题分值识别所述语音解析信息是否属于所述预设领域,具体包括:
若所述语音解析信息的主题分值为0,确定所述语音解析信息属于所述预设领域;或者
若所述语音解析信息的主题分值对第一参数或者第二参数求余等于0,确定所述语音解析信息中包括所述重要程度标识为所述middle的所述关键词,且包括的所述关键词的数量大于1,确定所述语音解析信息属于所述预设领域;其中所述第一参数等于所述第一质数的平方,所述第二参数等于所述第一质数和所述第二质数的乘积;或者
若所述语音解析信息的主题分值既不等于0,又对第一参数或者第二参数求余不等于0,则确定所述语音解析信息不属于所述预设领域。
本发明提供一种语义解析信息的领域识别装置,所述装置包括:
模板获取模块,用于获取预设领域中、解析用户输入的语音数据生成语义解析信息所采用的至少一个预设关键词提取模板;各所述预设关键词提取模板中包括至少一个关键词;
主题权重获取模块,用于根据各所述预设关键词提取模板中各所述关键词在所述预设领域的重要程度标识,获取各所述关键词的主题权重;
计算模块,用于根据各所述关键词的主题权重计算所述语音解析信息的主题分值;
识别模块,用于根据所述语音解析信息的主题分值识别所述语音解析信息是否属于所述预设领域。
进一步可选地,如上所述的装置中,所述装置还包括:
设置模块,用于在各所述预设领域中,设置多个所述预设关键词提取模块,各所述预设关键词提取模板中包括至少两个所述关键词;
重要程度标识模块,用于在各所述预设领域的各所述预设关键词提取模板中,标识对应的所述预设关键词提取模板中包括的各所述关键词在对应的所述预设领域中的重要程度标识。
进一步可选地,如上所述的装置中,所述装置还包括:
重要程度标识获取模块,用于获取各所述预设关键词提取模板中包括的各所述关键词在对应的所述预设领域中的重要程度标识。
进一步可选地,如上所述的装置中,所述重要程度标识获取模块,具体用于:
采集各所述预设领域的数条语料,生成对应的所述预设领域的语料库;
对所述语料库中的各所述语料进行分词,提取各所述语料中的有效分词作为所述语料包括的所述关键词;
统计各所述关键词在所述语料库中的所述数条语料分词后得到的所有所述关键词中出现的频率,作为对应的所述关键词在所述语料库中的词频;
根据各所述关键词在所述语料库中的词频占所述数条语料分词后得到的所有所述关键词出现的频率的概率,为对应的所述关键词设置在所述预设领域的重要程度标识。
进一步可选地,如上所述的装置中,所述主题权重获取模块,具体用于:
若所述预设关键词提取模板中的所述关键词在所述预设领域的重要程度标识为high,根据所述重要程度标识与主题权重的对应关系,获取所述high对应的主题权重为0;
若所述预设关键词提取模板中的所述关键词在所述预设领域的重要程度标识为middle,根据所述重要程度标识与主题权重的对应关系,获取所述middle对应的主题权重为第一质数;或者
若所述预设关键词提取模板中的所述关键词在所述预设领域的重要程度标识为low,根据所述重要程度标识与主题权重的对应关系,获取所述low对应的主题权重为第二质数;所述第二质数不等于第一质数;所述high标识的所述关键词在所述预设领域的重要程度,高于所述middle标识的所述关键词在所述预设领域的重要程度;所述middle标识的所述关键词在所述预设领域的重要程度,高于所述low标识的所述关键词在所述预设领域的重要程度。
进一步可选地,如上所述的装置中,所述计算模块,具体用于:
将各所述关键词的主题权重相乘,得到所述语音解析信息的主题分值。
进一步可选地,如上所述的装置中,所述识别模块,具体用于:
若所述语音解析信息的主题分值为0,确定所述语音解析信息属于所述预设领域;或者
若所述语音解析信息的主题分值对第一参数或者第二参数求余等于0,确定所述语音解析信息中包括所述重要程度标识为所述middle的所述关键词,且包括的所述关键词的数量大于1,确定所述语音解析信息属于所述预设领域;其中所述第一参数等于所述第一质数的平方,所述第二参数等于所述第一质数和所述第二质数的乘积;或者
若所述语音解析信息的主题分值既不等于0,又对第一参数或者第二参数求余不等于0,则确定所述语音解析信息不属于所述预设领域。
本发明还提供一种计算机设备,所述设备包括:
一个或多个处理器;
存储器,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如上所述的语义解析信息的领域识别方法。
本发明还提供一种计算机可读介质,其上存储有计算机程序,该程序被处理器执行时实现如上所述的语义解析信息的领域识别方法。
本发明的语义解析信息的领域识别方法及装置、设备及可读介质,通过获取预设领域中、解析用户输入的语音数据生成语义解析信息所采用的至少一个预设关键词提取模板;各预设关键词提取模板中包括至少一个关键词;根据各关键词提取模板中各关键词在预设领域的重要程度标识,获取各关键词的主题权重;根据各关键词的主题权重计算语音解析信息的主题分值;根据语音解析信息的主题分值识别语音解析信息是否属于预设领域。通过采用本发明的技术方案,可以对语音解析信息所属的领域进行识别,从而可以保证识别的语言解析信息的领域的正确性,进而保证App根据该语义解析信息执行的操作的正确性。
【附图说明】
图1为本发明的语义解析信息的领域识别方法实施例的流程图。
图2为本发明的语义解析信息的领域识别装置实施例一的结构图。
图3为本发明的语义解析信息的领域识别装置实施例二的结构图。
图4为本发明的计算机设备实施例的结构图。
图5为本发明提供的一种计算机设备的示例图。
【具体实施方式】
为了使本发明的目的、技术方案和优点更加清楚,下面结合附图和具体实施例对本发明进行详细描述。
图1为本发明的语义解析信息的领域识别方法实施例的流程图。如图1所示,本实施例的语义解析信息的领域识别方法,具体可以包括如下步骤:
100、获取预设领域中、解析用户输入的语音数据生成语义解析信息所采用的至少一个预设关键词提取模板;其中各预设关键词提取模板中包括至少一个关键词;
本实施例的语义解析信息的领域识别方法的执行主体为语义解析信息的领域识别装置,该语义解析信息的领域识别装置可以使用在任何能够接收用户的语音输入的应用或者平台中。
本实施例的语义解析信息的领域识别方法在使用时,首先接收用户输入的语音数据,然后解析用户输入的语音数据生成语义解析信息,具体地,需要先对用户的语音数据进行语音识别,得到语音数据对应的文字信息,再对语音数据对应的文字信息进行语义解析,获取到语义解析信息。实际应用中,用户输入的语音数据,可能属于科技、教育、娱乐、酒店、火车票等等各种不同的领域,为了对语音数据进行正确的语义解析,可以预先设置有多个预设领域的预设关键词提取模板,且在每一个预设领域中,可以设置多个预设关键词提取模块。本实施例中,进行语义解析的时候,具体可以采用各预设领域的一个、两个或者多个预设关键词提取模板,从语音数据对应的文字信息中提取一个或者多个关键词,按照预设的格式生成语义解析信息。最终,在每个预设领域生成一个语义解析信息,但是不能保证每个领域的语义解析信息都是正确的。
本实施例的关键词也可以称之为Term,预设关键词提取模板(pattern)也可以称之为预设Term提取pattern,在预设Term提取模板中,可以包括至少一个Term的槽位。且在语义解析时,所采用的预设关键词提取模板的类型可以为精确模板,也可以为片段模板。实际应用中,精确模板中可以包括多个term的槽位,生成的语义解析信息非常准确,通常可以确定该语义解析信息对应的领域,即为生成语义解析信息所采用的类型为精确模板对应的预设关键词提取模板所属的领域,不用再进行领域识别。而片段模板包含的信息量较少,例如片段模板中可以仅包括一个时间信息,或者价格信息等等。若在语义解析时采用了预设领域的一个、两个或者多个片段模板生成语义解析信息时,此时解析的语义解析信息的领域可能不准确,此时需要采用本实施例的技术方案对语义解析信息的领域进行识别。例如,根据酒店领域的两个片段模板,如带有时间的片段模板和带有价格的片段模板解析得到的语义解析信息为“我昨天下午消费了25元”,很明显该语义解析信息应该不属于酒店领域的,所以本实施例中可以针对该种情况的语义解析信息的领域进行识别,进而可以过滤掉领域明显错误的语义解析信息。
由上述分析,可以知道,本实施例中,对语义解析信息的领域识别的方法主要针对于语义解析时采用了预设领域的片段模型生成语义解析信息的情况。若对于语义解析时采用了预设领域的精确模型生成语义解析信息的情况,本实施例的方案没有任何优势,也不用再进行领域识别。因此可选地,在步骤100之前,还可以包括:判断生成语义解析信息时所采用的预设关键词提取模板的类型是否包括片段模板,若包括则需要采用本发明实施例的方法对语义解析信息的领域进行识别。或者也可以先获取生成语义解析信息时所采用的预设关键词提取模板的数量;然后判断预设关键词提取模板的数量是否大于1,若大于1,不可能采用的是精确模板,此时开始执行步骤100,以对语义解析信息的领域进行识别;否则若等于1,则还需要进一步判断该预设关键词提取模板为精确模板还是片段模板,若为精确模板,由于精确模板为用户预先根据该预设领域的关键词设置的,能够精准表示该预设领域,所以当解析语义解析信息时采用的是精确模板,后续不再需要对语义解析信息的领域进行识别。而若为片段模板,则开始执行步骤100,采用本实施例的语义解析信息的领域识别方法进行识别。
另外,可选地,本实施例的各个预设领域的各预设关键词提取模板中不仅包括至少一个关键词,还可以包括每个关键词的重要程度标识。具体可以在预设关键词提取模板中各关键词上标识该关键词的重要程度标识。
例如,可选地,在该步骤100“获取预设领域中、解析用户输入的语音数据生成语义解析信息所采用的至少一个预设关键词提取模板”之前,还可以包括如下步骤:
(a1)在各预设领域中,设置多个预设关键词提取模块,各预设关键词提取模板中包括至少两个关键词;
例如在酒店领域中,设置的一个预设关键提取模板中包括“预定”、“明天”和“酒店”三个关键词;设置的另一个预设关键词提取模板中包括“预定”、“假期”和“酒店”;设置的再一个预设关键词提取模板中包括“酒店”、“入住”和“办理”等等。
本实施例的每个预设领域的多个预设关键词提取模板可以由用户根据该预设领域中的语音数据输入习惯来进行人工设置。例如,该语义解析信息的领域识别装置可以接收用户通过人机接口模板输入的各预设领域的各预设关键词提取模板。人机接口模块可以包括鼠标和/或键盘。或者还可以为触摸屏的检测设备,由触摸屏的检测设备检测并接收用户输入各预设领域的各预设关键词提取模板,然后存储在语义解析信息的领域识别装置中。
(a2)在各预设领域的各预设关键词提取模板中,标识对应的预设关键词提取模板中包括的各关键词在对应的预设领域中的重要程度标识。
即,在各个预设关键词提取模板中,还标识有每个关键词在该预设关键词提取模板所属的预设领域中的重要程度标识。
例如,在步骤(a2)之前,还可以包括如下步骤:获取各预设关键词提取模板中包括的各关键词在对应的预设领域中的重要程度标识。
进一步地,“获取各预设关键词提取模板中包括的各关键词在对应的预设领域中的重要程度标识”,具体可以包括如下步骤:
(b1)采集各预设领域的数条语料,生成对应的预设领域的语料库;
在每个预设领域中,可以采集该预设领域中的数条语料,每一条语料可以为该预设领域中用户输入的语音数据对应的语义解析信息。在每个预设领域中,通过采集数条语料,可以生成该预设领域的语料库。
(b2)对语料库中的各语料进行分词,提取各语料中的有效分词作为语料包括的关键词;
对每一个语料,对其进行分词,可以得到多个分词,然后可以去除没有意义的分词,例如“你”、“我”、“你们”、“我们”等等之类的人称词以及“的”、“地”、“啊”、“你”以及“吗”等等之类的没有实际意义的词,而仅保留剩下的有效词作为该语料的关键词。
(b3)统计各关键词在语料库中的数条语料分词后得到的所有关键词中出现的频率,作为对应的关键词在语料库中的词频;
采用上述方式,可以获取到语料库中每一个语料包括的关键词,然后对语料库中的所有语料分词后得到的所有关键词出现的频率进行统计以及每一个关键词在语料库中的词频进行统计。
(b4)根据各关键词在语料库中的词频占数条语料分词后得到的所有关键词出现的频率的概率,为对应的关键词设置在预设领域的重要程度标识。
例如,可以将每一个关键词在语料库中的词频除以数条语料分词后得到的所有关键词出现的频率的概率,得到该关键词在语料库中的各语料中出现的概率。例如某一关键词在语料库出现的词频为100次,而语料库中的数条语料分词后得到的所有关键词共出现的频率为2000次,那么该关键词在语料库中的各语料中出现的概率等于100/2000=1/20=0.05。根据上述方式,可以获取到每一个关键词在语料库中的各语料中出现的概率。然后根据每一个关键词在语料库中的各语料中出现的概率,为对应的关键词设置在预设领域的重要程度标识。对应的概率大的关键词,可以设置其在预设领域的具有较为重要的重要程度标识;而对于概率小的关键词,可以设置其在预设领域的具有较为不重要的重要程度标识。例如,可以将重要程度分为三级,为概率大于或者等于第一预设阈值的关键词,设置在预设领域的重要程度标识为high;为概率大于或者等于第二预设阈值小于第一预设阈值的关键词,设置在预设领域的重要程度标识为middle,为概率小于第二预设阈值的关键词,设置在预设领域的重要程度标识为low。或者也可以只设置high、middle以及low其中两个重要程度标识,默认没设置重要程度标识的为第三种重要程度标识。例如,仅设置high和middle对应的关键词的重要程度标识,而其他的关键词默认都是low对应的重要程度标识。
或者本实施例中,也可以直接采用关键词在语料库中的各语料中出现的概率,作为该关键词在预设领域的重要程度标识。概率越大,表示该关键词在预设领域的重要程度越高。
最后,在各预设领域的各预设关键词提取模板中,标识对应的预设关键词提取模板中包括的各关键词在对应的预设领域中的重要程度标识。
101、根据各关键词提取模板中各关键词在预设领域的重要程度标识,获取各关键词的主题权重;
根据上述实施例的方式,可以知道,在各预设领域的各关键词提取模板中都标识有该关键词提取模板中各关键词在预设领域的重要程度标识,这样,在步骤100中,获取到预设领域中、解析用户输入的语音数据生成语义解析信息所采用的至少一个预设关键词提取模板之后,可以从获取到的各关键词提取模板中,获取各关键词提取模板中各关键词在预设领域的重要程度标识。然后再根据各关键词在预设领域的重要程度标识,获取各关键词的主题权重。
102、根据各关键词的主题权重计算语音解析信息的主题分值;
103、根据语音解析信息的主题分值识别语音解析信息是否属于预设领域。
例如,若关键词提取模板中各关键词在预设领域的重要程度标识按照high、middle和low分为三挡,对应地,语义解析信息的领域识别装置中可以预存储有每一档重要程度标识与对应的主题权重的对应关系,此时步骤101“根据关键词提取模板中各关键词在预设领域的重要程度标识,获取各关键词的主题权重”,具体可以包括如下情形:
(c1)若预设关键词提取模板中的关键词在预设领域的重要程度标识为high,根据预设领域中的重要程度标识与主题权重的对应关系,获取high对应的主题权重为0;
(c2)若预设关键词提取模板中的关键词在预设领域的重要程度标识为middle,根据预设领域中的重要程度标识与主题权重的对应关系,获取middle对应的主题权重为第一质数;例如,第一质数可以为2。本实施例中利用质数具有1和其本身两个公约数的特性,采用质数作为权重,便于后续根据语音解析信息的主题分值识别语音解析信息是否属于预设领域。
(c3)若预设关键词提取模板中的关键词在预设领域的重要程度标识为low,根据预设领域中的重要程度标识与主题权重的对应关系,获取low对应的主题权重为第二质数;第二质数不等于第一质数;例如,第二质数可以为3。
其中high标识的关键词在预设领域的重要程度,高于middle标识的关键词在预设领域的重要程度;middle标识的关键词在预设领域的重要程度,高于low标识的关键词在预设领域的重要程度。
进一步可选地,此时步骤102“根据各关键词的主题权重计算语音解析信息的主题分值”,具体可以包括:将各关键词的主题权重相乘,得到语音解析信息的主题分值。例如,采用公式可以表示为:
score=w(term1)*w(term2)*......*w(termN)
其中score表示语音解析信息的主题分值;w(term1)表示当前的预设关键词提取模板的第一个term即第一个关键词的主题权重;w(term2)表示当前的预设关键词提取模板的第二个term即第一个关键词的主题权重;w(termN)表示当前的预设关键词提取模板的第N个term即第一个关键词的主题权重。本实施例中以包括N个关键词为例。
进一步可选地,此时步骤103“根据语音解析信息的主题分值识别语音解析信息是否属于预设领域”,具体可以包括如下情形:
(d1)若语音解析信息的主题分值为0,确定语音解析信息属于预设领域;
由于本实施例的语音解析信息的主题分值采用将各关键词的主题权重相乘得到,且重要程度标识为high的主题权重为0。也就是说,若预设关键词提取模板中只要包括一个重要程度标识为high的主题权重,则语音解析信息的主题分值便为0。因此,若语音解析信息的主题分值为0,则可以确定语音解析信息属于预设领域。
(d2)若语音解析信息的主题分值对第一参数或者第二参数求余等于0,确定语音解析信息中包括重要程度标识为middle的关键词,且包括的关键词的数量大于1,确定语音解析信息属于预设领域;其中第一参数等于第一质数的平方,第二参数等于第一质数和第二质数的乘积;
由于上述实施例中的第一质数和第二质数仅包括本身和1两个公约数。此时将第一质数乘以第一质数,得到第一参数,即第一参数等于第一质数的平方。将第一质数乘以第二质数,得到第二参数。然后将语音解析信息的主题分值对第一参数求余,若等于0,则表示主题分值中包括有第一质数乘以第一质数的第一参数,则表示预设关键词提取模板中至少包括有两个重要程度标识为middle的关键词;而将语音解析信息的主题分值对第二参数求余,若等于0,则表示主题分值中包括有第一质数乘以第二质数的第二参数,则表示预设关键词提取模板中至少包括有一个重要程度标识为middle的关键词和一个重要程度标识为low的关键词。即可以确定语音解析信息中包括重要程度标识为middle的关键词,且包括的关键词的数量大于1,确定语音解析信息属于预设领域。
(d3)若语音解析信息的主题分值既不等于0,又对第一参数或者第二参数求余不等于0,则确定语音解析信息不属于预设领域。
若语音解析信息的主题分值不满足上述(d1)和(d2)两种情况,即此时语音解析信息的主题分值既不等于0,又对第一参数或者第二参数求余不等于0,则确定语音解析信息不属于预设领域。
另外,若关键词提取模板中各关键词在预设领域的重要程度标识直接采用各关键词的在语料库中的各语料中出现的概率来表示。此时进一步地,可以根据各关键词的在语料库中的各语料中出现的概率的大小,设置对应的权重,例如,此时设置的权重可以与概率大小成正比,概率较大,可以设置较大的权重,例如,可以按照类似的方式,将概率分为10档,对应的权重也可以分别设置为1-10中的10个正整数。概率最小的一档,设置的权重较小为1,概率最大的一档,设置的权重最大为10,其它依次类推。或者还可以直接将各关键词的在语料库中的各语料中出现的概率值作为对应的关键词的主题权重。
此时根据各关键词的主题权重计算语音解析信息的主题分值,可以将预设关键词提取模板中的各关键词的主题权重相加得到语音解析信息的主题分值。例如,此时采用公式可以表示为score=w(term1)+w(term2)+......+w(termN)。此时根据语音解析信息的主题分值识别语音解析信息是否属于预设领域,具体可以参考一个预设阈值,若语音解析信息的主题分值大于或者等于预设阈值,此时表示该语音解析信息属于关键词提取模板所对应的预设领域,否则若语音解析信息的主题分值小于预设阈值,此时表示该语音解析信息不属于关键词提取模板所对应的预设领域。
本实施例的语义解析信息的领域识别方法,通过获取预设领域中、解析用户输入的语音数据生成语义解析信息所采用的至少一个预设关键词提取模板;各预设关键词提取模板中包括至少一个关键词;根据各关键词提取模板中各关键词在预设领域的重要程度标识,获取各关键词的主题权重;根据各关键词的主题权重计算语音解析信息的主题分值;根据语音解析信息的主题分值识别语音解析信息是否属于预设领域。通过采用本实施例的技术方案,可以对语音解析信息所属的领域进行识别,从而可以保证识别的语言解析信息的领域的正确性,进而保证App根据该语义解析信息执行的操作的正确性。
本实施例的语义解析信息的领域识别方法,结合语义解析任务的特点,主要采用考虑Term主题权重的思路,该方法在通用语义解析平台多个领域上测试得到了很好的拒识效果;且领域移植性好,方便针对特定领域应用做优化。而且本实施例的语义解析信息的领域识别方法,带来更好的语义解析效果,能够实现语义解析信息在多垂直领域应用时解析结果的可靠性评估;且测试结果表明引入该方法后对于解析结果有较明显的正向收益。
图2为本发明的语义解析信息的领域识别装置实施例一的结构图。如图2所示,本实施例的语义解析信息的领域识别装置,具体可以包括:模板获取模块10、主题权重获取模块11、计算模块12和识别模块13。
其中模板获取模块10用于获取预设领域中、解析用户输入的语音数据生成语义解析信息所采用的至少一个预设关键词提取模板;各预设关键词提取模板中包括至少一个关键词;
主题权重获取模块11用于根据模板获取模块10获取的各预设关键词提取模板中各关键词在预设领域的重要程度标识,获取各关键词的主题权重;
计算模块12用于根据主题权重获取模块11获取的各关键词的主题权重计算语音解析信息的主题分值;
识别模块13用于根据计算模块12计算的语音解析信息的主题分值识别语音解析信息是否属于预设领域。
本实施例的语义解析信息的领域识别装置,通过采用上述模块实现信息处理的实现原理以及技术效果与上述相关方法实施例的实现相同,详细可以参考上述相关方法实施例的记载,在此不再赘述。
图3为本发明的语义解析信息的领域识别装置实施例二的结构图。如图3所示,本实施例的语义解析信息的领域识别装置在上述图2所示实施例的技术方案的基础上,进一步更加详细地介绍本发明的技术方案。如图3所示,本实施例的语义解析信息的领域识别装置,还包括:
设置模块14用于在各预设领域中,设置多个预设关键词提取模块,各预设关键词提取模板中包括至少两个关键词;
重要程度标识模块15用于在设置模块14设置的各预设领域的各预设关键词提取模板中,标识对应的预设关键词提取模板中包括的各关键词在对应的预设领域中的重要程度标识。
此时对应地,模板获取模块10用于从设置模块14设置的各预设领域中的多个预设关键词提取模块中,获取与用户输入的语音数据的语义解析信息匹配的、预设领域的预设关键词提取模板。
进一步可选地,如图3所示,本实施例的语义解析信息的领域识别装置,还包括:
重要程度标识获取模块16用于获取设置模块14设置的各预设关键词提取模板中包括的各关键词在对应的预设领域中的重要程度标识。
例如,重要程度标识获取模块16具体用于:
采集各预设领域的数条语料,生成对应的预设领域的语料库;
对语料库中的各语料进行分词,提取各语料中的有效分词作为语料包括的关键词;
统计各关键词在语料库中的数条语料分词后得到的所有关键词中出现的频率,作为对应的关键词在语料库中的词频;
根据各关键词在语料库中的词频占数条语料分词后得到的所有关键词出现的频率的概率,为对应的关键词设置在预设领域的重要程度标识。
然后,对应地,重要程度标识模块15用于采用重要程度标识获取模块16获取的各关键词设置在预设领域的重要程度标识,在设置模块14设置的各预设领域的各预设关键词提取模板中,标识对应的预设关键词提取模板中包括的各关键词在对应的预设领域中的重要程度标识。
进一步可选地,本实施例的语义解析信息的领域识别装置中,主题权重获取模块11具体用于:
若模板获取模块10获取的预设关键词提取模板中的关键词在预设领域的重要程度标识为high,根据重要程度标识与主题权重的对应关系,获取high对应的主题权重为0;
若模板获取模块10获取的预设关键词提取模板中的关键词在预设领域的重要程度标识为middle,根据重要程度标识与主题权重的对应关系,获取middle对应的主题权重为第一质数;或者
若模板获取模块10获取的预设关键词提取模板中的关键词在预设领域的重要程度标识为low,根据重要程度标识与主题权重的对应关系,获取low对应的主题权重为第二质数;第二质数不等于第一质数;high标识的关键词在预设领域的重要程度,高于middle标识的关键词在预设领域的重要程度;middle标识的关键词在预设领域的重要程度,高于low标识的关键词在预设领域的重要程度。
进一步可选地,本实施例的语义解析信息的领域识别装置中,计算模块12具体用于:
将主题权重获取模块11获取的各关键词的主题权重相乘,得到语音解析信息的主题分值。
进一步可选地,本实施例的语义解析信息的领域识别装置中,识别模块13具体用于:
若计算模块12计算的语音解析信息的主题分值为0,确定语音解析信息属于预设领域;或者
若计算模块12计算的语音解析信息的主题分值对第一参数或者第二参数求余等于0,确定语音解析信息中包括重要程度标识为middle的关键词,且包括的关键词的数量大于1,确定语音解析信息属于预设领域;其中第一参数等于第一质数的平方,第二参数等于第一质数和第二质数的乘积;或者
若计算模块12计算的语音解析信息的主题分值既不等于0,又对第一参数或者第二参数求余不等于0,则确定语音解析信息不属于预设领域。
本实施例的语义解析信息的领域识别装置,通过采用上述模块实现信息处理的实现原理以及技术效果与上述相关方法实施例的实现相同,详细可以参考上述相关方法实施例的记载,在此不再赘述。
图4为本发明的计算机设备实施例的结构图。如图4所示,本实施例的计算机设备,包括:一个或多个处理器30,以及存储器40,存储器40用于存储一个或多个程序,当存储器40中存储的一个或多个程序被一个或多个处理器30执行,使得一个或多个处理器30实现如上图1-图3所示实施例的语义解析信息的领域识别方法。图4所示实施例中以包括多个处理器30为例。
例如,图5为本发明提供的一种计算机设备的示例图。图5示出了适于用来实现本发明实施方式的示例性计算机设备12a的框图。图5显示的计算机设备12a仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图5所示,计算机设备12a以通用计算设备的形式表现。计算机设备12a的组件可以包括但不限于:一个或者多个处理器16a,系统存储器28a,连接不同系统组件(包括系统存储器28a和处理器16a)的总线18a。
总线18a表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(ISA)总线,微通道体系结构(MAC)总线,增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。
计算机设备12a典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算机设备12a访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
系统存储器28a可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(RAM)30a和/或高速缓存存储器32a。计算机设备12a可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,存储系统34a可以用于读写不可移动的、非易失性磁介质(图5未显示,通常称为“硬盘驱动器”)。尽管图5中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线18a相连。系统存储器28a可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本发明上述图1-图3各实施例的功能。
具有一组(至少一个)程序模块42a的程序/实用工具40a,可以存储在例如系统存储器28a中,这样的程序模块42a包括——但不限于——操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42a通常执行本发明所描述的上述图1-图3各实施例中的功能和/或方法。
计算机设备12a也可以与一个或多个外部设备14a(例如键盘、指向设备、显示器24a等)通信,还可与一个或者多个使得用户能与该计算机设备12a交互的设备通信,和/或与使得该计算机设备12a能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22a进行。并且,计算机设备12a还可以通过网络适配器20a与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器20a通过总线18a与计算机设备12a的其它模块通信。应当明白,尽管图中未示出,可以结合计算机设备12a使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
处理器16a通过运行存储在系统存储器28a中的程序,从而执行各种功能应用以及数据处理,例如实现上述实施例所示的语义解析信息的领域识别方法。
本发明还提供一种计算机可读介质,其上存储有计算机程序,该程序被处理器执行时实现如上述实施例所示的语义解析信息的领域识别方法。
本实施例的计算机可读介质可以包括上述图5所示实施例中的系统存储器28a中的RAM30a、和/或高速缓存存储器32a、和/或存储系统34a。
随着科技的发展,计算机程序的传播途径不再受限于有形介质,还可以直接从网络下载,或者采用其他方式获取。因此,本实施例中的计算机可读介质不仅可以包括有形的介质,还可以包括无形的介质。
本实施例的计算机可读介质可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括——但不限于——电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括——但不限于——无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如”C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
在本发明所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。

Claims (16)

1.一种语义解析信息的领域识别方法,其特征在于,所述方法包括:
获取预设领域中、解析用户输入的语音数据生成语义解析信息所采用的至少一个预设关键词提取模板;各所述预设关键词提取模板中包括至少一个关键词;
根据各所述预设关键词提取模板中各所述关键词在所述预设领域的重要程度标识,获取各所述关键词的主题权重;
根据各所述关键词的主题权重计算所述语音解析信息的主题分值;
根据所述语音解析信息的主题分值识别所述语音解析信息是否属于所述预设领域。
2.根据权利要求1所述的方法,其特征在于,获取预设领域中、解析用户输入的语音数据生成语义解析信息所采用的至少一个预设关键词提取模板之前,所述方法还包括:
在各所述预设领域中,设置多个所述预设关键词提取模块,各所述预设关键词提取模板中包括至少两个所述关键词;
在各所述预设领域的各所述预设关键词提取模板中,标识对应的所述预设关键词提取模板中包括的各所述关键词在对应的所述预设领域中的重要程度标识。
3.根据权利要求2所述的方法,其特征在于,在各所述预设领域的各所述预设关键词提取模板中,标识对应的所述预设关键词提取模板中包括各所述关键词在对应的所述预设领域中的重要程度标识之前,所述方法还包括:
获取各所述预设关键词提取模板中包括的各所述关键词在对应的所述预设领域中的重要程度标识。
4.根据权利要求3所述的方法,其特征在于,获取各所述预设关键词提取模板中包括的各所述关键词在对应的所述预设领域中的重要程度标识,具体包括:
采集各所述预设领域的数条语料,生成对应的所述预设领域的语料库;
对所述语料库中的各所述语料进行分词,提取各所述语料中的有效分词作为所述语料包括的所述关键词;
统计各所述关键词在所述语料库中的所述数条语料分词后得到的所有所述关键词中出现的频率,作为对应的所述关键词在所述语料库中的词频;
根据各所述关键词在所述语料库中的词频占所述数条语料分词后得到的所有所述关键词出现的频率的概率,为对应的所述关键词设置在所述预设领域的重要程度标识。
5.根据权利要求1-4任一所述的方法,其特征在于,根据各所述关键词提取模板中各所述关键词在所述预设领域的重要程度标识,获取各所述关键词的主题权重,具体包括:
若所述预设关键词提取模板中的所述关键词在所述预设领域的重要程度标识为high,根据所述重要程度标识与主题权重的对应关系,获取所述high对应的主题权重为0;
若所述预设关键词提取模板中的所述关键词在所述预设领域的重要程度标识为middle,根据所述重要程度标识与主题权重的对应关系,获取所述middle对应的主题权重为第一质数;或者
若所述预设关键词提取模板中的所述关键词在所述预设领域的重要程度标识为low,根据所述重要程度标识与主题权重的对应关系,获取所述low对应的主题权重为第二质数;所述第二质数不等于第一质数;所述high标识的所述关键词在所述预设领域的重要程度,高于所述middle标识的所述关键词在所述预设领域的重要程度;所述middle标识的所述关键词在所述预设领域的重要程度,高于所述low标识的所述关键词在所述预设领域的重要程度。
6.根据权利要求5所述的方法,其特征在于,根据各所述关键词的主题权重计算所述语音解析信息的主题分值,具体包括:
将各所述关键词的主题权重相乘,得到所述语音解析信息的主题分值。
7.根据权利要求6所述的方法,其特征在于,根据所述语音解析信息的主题分值识别所述语音解析信息是否属于所述预设领域,具体包括:
若所述语音解析信息的主题分值为0,确定所述语音解析信息属于所述预设领域;或者
若所述语音解析信息的主题分值对第一参数或者第二参数求余等于0,确定所述语音解析信息中包括所述重要程度标识为所述middle的所述关键词,且包括的所述关键词的数量大于1,确定所述语音解析信息属于所述预设领域;其中所述第一参数等于所述第一质数的平方,所述第二参数等于所述第一质数和所述第二质数的乘积;或者
若所述语音解析信息的主题分值既不等于0,又对第一参数或者第二参数求余不等于0,则确定所述语音解析信息不属于所述预设领域。
8.一种语义解析信息的领域识别装置,其特征在于,所述装置包括:
模板获取模块,用于获取预设领域中、解析用户输入的语音数据生成语义解析信息所采用的至少一个预设关键词提取模板;各所述预设关键词提取模板中包括至少一个关键词;
主题权重获取模块,用于根据各所述预设关键词提取模板中各所述关键词在所述预设领域的重要程度标识,获取各所述关键词的主题权重;
计算模块,用于根据各所述关键词的主题权重计算所述语音解析信息的主题分值;
识别模块,用于根据所述语音解析信息的主题分值识别所述语音解析信息是否属于所述预设领域。
9.根据权利要求8所述的装置,其特征在于,所述装置还包括:
设置模块,用于在各所述预设领域中,设置多个所述预设关键词提取模块,各所述预设关键词提取模板中包括至少两个所述关键词;
重要程度标识模块,用于在各所述预设领域的各所述预设关键词提取模板中,标识对应的所述预设关键词提取模板中包括的各所述关键词在对应的所述预设领域中的重要程度标识。
10.根据权利要求9所述的装置,其特征在于,所述装置还包括:
重要程度标识获取模块,用于获取各所述预设关键词提取模板中包括的各所述关键词在对应的所述预设领域中的重要程度标识。
11.根据权利要求10所述的装置,其特征在于,所述重要程度标识获取模块,具体用于:
采集各所述预设领域的数条语料,生成对应的所述预设领域的语料库;
对所述语料库中的各所述语料进行分词,提取各所述语料中的有效分词作为所述语料包括的所述关键词;
统计各所述关键词在所述语料库中的所述数条语料分词后得到的所有所述关键词中出现的频率,作为对应的所述关键词在所述语料库中的词频;
根据各所述关键词在所述语料库中的词频占所述数条语料分词后得到的所有所述关键词出现的频率的概率,为对应的所述关键词设置在所述预设领域的重要程度标识。
12.根据权利要求8-11任一所述的装置,其特征在于,所述主题权重获取模块,具体用于:
若所述预设关键词提取模板中的所述关键词在所述预设领域的重要程度标识为high,根据所述重要程度标识与主题权重的对应关系,获取所述high对应的主题权重为0;
若所述预设关键词提取模板中的所述关键词在所述预设领域的重要程度标识为middle,根据所述重要程度标识与主题权重的对应关系,获取所述middle对应的主题权重为第一质数;或者
若所述预设关键词提取模板中的所述关键词在所述预设领域的重要程度标识为low,根据所述重要程度标识与主题权重的对应关系,获取所述low对应的主题权重为第二质数;所述第二质数不等于第一质数;所述high标识的所述关键词在所述预设领域的重要程度,高于所述middle标识的所述关键词在所述预设领域的重要程度;所述middle标识的所述关键词在所述预设领域的重要程度,高于所述low标识的所述关键词在所述预设领域的重要程度。
13.根据权利要求12所述的装置,其特征在于,所述计算模块,具体用于:
将各所述关键词的主题权重相乘,得到所述语音解析信息的主题分值。
14.根据权利要求13所述的装置,其特征在于,所述识别模块,具体用于:
若所述语音解析信息的主题分值为0,确定所述语音解析信息属于所述预设领域;或者
若所述语音解析信息的主题分值对第一参数或者第二参数求余等于0,确定所述语音解析信息中包括所述重要程度标识为所述middle的所述关键词,且包括的所述关键词的数量大于1,确定所述语音解析信息属于所述预设领域;其中所述第一参数等于所述第一质数的平方,所述第二参数等于所述第一质数和所述第二质数的乘积;或者
若所述语音解析信息的主题分值既不等于0,又对第一参数或者第二参数求余不等于0,则确定所述语音解析信息不属于所述预设领域。
15.一种计算机设备,其特征在于,所述设备包括:
一个或多个处理器;
存储器,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-7中任一所述的方法。
16.一种计算机可读介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-7中任一所述的方法。
CN201710379577.1A 2017-05-25 2017-05-25 语义解析信息的领域识别方法及装置、设备及可读介质 Active CN107193973B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201710379577.1A CN107193973B (zh) 2017-05-25 2017-05-25 语义解析信息的领域识别方法及装置、设备及可读介质
US15/980,233 US10777192B2 (en) 2017-05-25 2018-05-15 Method and apparatus of recognizing field of semantic parsing information, device and readable medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710379577.1A CN107193973B (zh) 2017-05-25 2017-05-25 语义解析信息的领域识别方法及装置、设备及可读介质

Publications (2)

Publication Number Publication Date
CN107193973A true CN107193973A (zh) 2017-09-22
CN107193973B CN107193973B (zh) 2021-07-20

Family

ID=59875487

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710379577.1A Active CN107193973B (zh) 2017-05-25 2017-05-25 语义解析信息的领域识别方法及装置、设备及可读介质

Country Status (2)

Country Link
US (1) US10777192B2 (zh)
CN (1) CN107193973B (zh)

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108509412A (zh) * 2018-03-02 2018-09-07 北京搜狗科技发展有限公司 一种数据处理方法、装置、电子设备以及存储介质
CN108871370A (zh) * 2018-07-03 2018-11-23 北京百度网讯科技有限公司 导航方法、装置、设备和介质
CN110209804A (zh) * 2018-04-20 2019-09-06 腾讯科技(深圳)有限公司 目标语料的确定方法和装置、存储介质及电子装置
CN110223695A (zh) * 2019-06-27 2019-09-10 维沃移动通信有限公司 一种任务创建方法及移动终端
CN110442855A (zh) * 2019-04-10 2019-11-12 北京捷通华声科技股份有限公司 一种语音分析方法和系统
CN110705308A (zh) * 2019-09-18 2020-01-17 平安科技(深圳)有限公司 语音信息的领域识别方法、装置、存储介质及电子设备
CN110705267A (zh) * 2019-09-29 2020-01-17 百度在线网络技术(北京)有限公司 语义解析方法、装置及存储介质
CN111178081A (zh) * 2018-11-09 2020-05-19 中移(杭州)信息技术有限公司 语义识别的方法、服务器、电子设备及计算机存储介质
CN111199259A (zh) * 2018-11-19 2020-05-26 中国电信股份有限公司 标识转换方法、装置和计算机可读存储介质
CN111243596A (zh) * 2020-01-08 2020-06-05 中保车服科技服务股份有限公司 基于语音识别的保险信息获取方法、装置、设备及存储介质
CN111666759A (zh) * 2020-04-17 2020-09-15 北京百度网讯科技有限公司 文本的关键信息的抽取方法、装置、电子设备及存储介质
WO2020220914A1 (zh) * 2019-04-30 2020-11-05 京东方科技集团股份有限公司 语音问答方法及其装置、计算机可读存储介质和电子设备
CN112614486A (zh) * 2020-10-30 2021-04-06 小狗电器互联网科技(北京)股份有限公司 应用于扫地机的语音控制执行功能方法、装置、电子设备
AU2017435621B2 (en) * 2017-10-09 2022-01-27 Huawei Technologies Co., Ltd. Voice information processing method and device, and terminal

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7004955B2 (ja) 2017-12-11 2022-01-21 トヨタ自動車株式会社 サービス提供装置、サービス提供プログラム及び音声認識によるサービスを提供する方法
CN110532107B (zh) * 2019-07-22 2023-04-28 平安付科技服务有限公司 接口调用方法、装置、计算机设备及存储介质
CN112417101B (zh) * 2020-11-23 2023-08-18 平安科技(深圳)有限公司 一种关键词提取的方法及相关装置
CN113077792B (zh) * 2021-03-24 2024-03-05 平安科技(深圳)有限公司 佛学主题词识别方法、装置、设备及存储介质
CN113066265B (zh) * 2021-03-29 2023-11-03 广州海格通信集团股份有限公司 遇险救生系统的通信方法、装置、计算机设备和存储介质
CN114138227A (zh) * 2021-12-08 2022-03-04 江西台德智慧科技有限公司 一种智能语音快捷键输入方法及智能语音快捷键输入系统

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100100377A1 (en) * 2008-10-10 2010-04-22 Shreedhar Madhavapeddi Generating and processing forms for receiving speech data
CN102081627A (zh) * 2009-11-27 2011-06-01 北京金山软件有限公司 一种确定词语在文本中的贡献度的方法及系统
CN103136300A (zh) * 2011-12-05 2013-06-05 北京百度网讯科技有限公司 一种文本相关主题的推荐方法和装置
CN103678356A (zh) * 2012-09-11 2014-03-26 北京百度网讯科技有限公司 一种用于获取关键词的应用领域属性信息的方法、装置与设备
CN103870575A (zh) * 2014-03-19 2014-06-18 北京百度网讯科技有限公司 一种提取领域关键词的方法及装置
US8868409B1 (en) * 2014-01-16 2014-10-21 Google Inc. Evaluating transcriptions with a semantic parser
US20160300573A1 (en) * 2015-04-08 2016-10-13 Google Inc. Mapping input to form fields
US20160306790A1 (en) * 2015-04-20 2016-10-20 Xerox Corporation Preserving consistency in domain-specific business processes through semantic representation of artifacts
US20170004130A1 (en) * 2015-02-13 2017-01-05 International Business Machines Corporation Identifying word-senses based on linguistic variations
CN106445907A (zh) * 2015-08-06 2017-02-22 北京国双科技有限公司 一种领域词典的生成方法及装置
CN106469187A (zh) * 2016-08-29 2017-03-01 东软集团股份有限公司 关键词的提取方法及装置
CN106547738A (zh) * 2016-11-02 2017-03-29 北京亿美软通科技有限公司 一种基于文本挖掘的金融类逾期短信智能判别方法
CN106598999A (zh) * 2015-10-19 2017-04-26 北京国双科技有限公司 一种计算文本主题归属度的方法及装置

Family Cites Families (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6839669B1 (en) * 1998-11-05 2005-01-04 Scansoft, Inc. Performing actions identified in recognized speech
US6885990B1 (en) * 1999-05-31 2005-04-26 Nippon Telegraph And Telephone Company Speech recognition based on interactive information retrieval scheme using dialogue control to reduce user stress
US6711585B1 (en) * 1999-06-15 2004-03-23 Kanisa Inc. System and method for implementing a knowledge management system
US20020087309A1 (en) * 2000-12-29 2002-07-04 Lee Victor Wai Leung Computer-implemented speech expectation-based probability method and system
US7231343B1 (en) * 2001-12-20 2007-06-12 Ianywhere Solutions, Inc. Synonyms mechanism for natural language systems
US7328155B2 (en) * 2002-09-25 2008-02-05 Toyota Infotechnology Center Co., Ltd. Method and system for speech recognition using grammar weighted based upon location information
US7739103B2 (en) * 2004-04-06 2010-06-15 Educational Testing Service Lexical association metric for knowledge-free extraction of phrasal terms
US7580363B2 (en) * 2004-08-16 2009-08-25 Nokia Corporation Apparatus and method for facilitating contact selection in communication devices
US7613610B1 (en) * 2005-03-14 2009-11-03 Escription, Inc. Transcription data extraction
EP1943641B1 (en) * 2005-10-27 2017-05-03 Nuance Communications Austria GmbH Method and system for processing dictated information
US20090030689A1 (en) * 2006-10-03 2009-01-29 Accutrak Inventory Specialists, Llc Mobile voice recognition data collection and processing
US20080109429A1 (en) * 2006-10-16 2008-05-08 Petrin Lorenzo W Method and system for electronic communication
US7870000B2 (en) * 2007-03-28 2011-01-11 Nuance Communications, Inc. Partially filling mixed-initiative forms from utterances having sub-threshold confidence scores based upon word-level confidence data
US8645143B2 (en) * 2007-05-01 2014-02-04 Sensory, Inc. Systems and methods of performing speech recognition using global positioning (GPS) information
US7831427B2 (en) * 2007-06-20 2010-11-09 Microsoft Corporation Concept monitoring in spoken-word audio
WO2012143948A2 (en) * 2011-04-18 2012-10-26 Jeswill Hitech Solutions Pvt. Ltd. Method and apparatus for processing content written in an application form using an e-pen
US9176941B2 (en) * 2011-07-14 2015-11-03 Tencent Technology (Shenzhen) Company Limited Text inputting method, apparatus and system based on a cache-based language model and a universal language model
US9324323B1 (en) * 2012-01-13 2016-04-26 Google Inc. Speech recognition using topic-specific language models
US11631265B2 (en) * 2012-05-24 2023-04-18 Esker, Inc. Automated learning of document data fields
US9064492B2 (en) * 2012-07-09 2015-06-23 Nuance Communications, Inc. Detecting potential significant errors in speech recognition results
US9396724B2 (en) * 2013-05-29 2016-07-19 Tencent Technology (Shenzhen) Company Limited Method and apparatus for building a language model
US10572491B2 (en) * 2014-11-19 2020-02-25 Google Llc Methods, systems, and media for presenting related media content items
US10121471B2 (en) * 2015-06-29 2018-11-06 Amazon Technologies, Inc. Language model speech endpointing
US20170039196A1 (en) * 2015-08-06 2017-02-09 Ariba, Inc. Computing system to evaluate sentiment of entities by processing data
CN105912521A (zh) * 2015-12-25 2016-08-31 乐视致新电子科技(天津)有限公司 一种解析语音内容的方法及装置
US10475447B2 (en) * 2016-01-25 2019-11-12 Ford Global Technologies, Llc Acoustic and domain based speech recognition for vehicles
US10373612B2 (en) * 2016-03-21 2019-08-06 Amazon Technologies, Inc. Anchored speech detection and speech recognition
US10229682B2 (en) * 2017-02-01 2019-03-12 International Business Machines Corporation Cognitive intervention for voice recognition failure
US10229683B2 (en) * 2017-03-10 2019-03-12 Soundhound, Inc. Speech-enabled system with domain disambiguation

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100100377A1 (en) * 2008-10-10 2010-04-22 Shreedhar Madhavapeddi Generating and processing forms for receiving speech data
CN102081627A (zh) * 2009-11-27 2011-06-01 北京金山软件有限公司 一种确定词语在文本中的贡献度的方法及系统
CN103136300A (zh) * 2011-12-05 2013-06-05 北京百度网讯科技有限公司 一种文本相关主题的推荐方法和装置
CN103678356A (zh) * 2012-09-11 2014-03-26 北京百度网讯科技有限公司 一种用于获取关键词的应用领域属性信息的方法、装置与设备
US8868409B1 (en) * 2014-01-16 2014-10-21 Google Inc. Evaluating transcriptions with a semantic parser
CN103870575A (zh) * 2014-03-19 2014-06-18 北京百度网讯科技有限公司 一种提取领域关键词的方法及装置
US20170004130A1 (en) * 2015-02-13 2017-01-05 International Business Machines Corporation Identifying word-senses based on linguistic variations
US20160300573A1 (en) * 2015-04-08 2016-10-13 Google Inc. Mapping input to form fields
US20160306790A1 (en) * 2015-04-20 2016-10-20 Xerox Corporation Preserving consistency in domain-specific business processes through semantic representation of artifacts
CN106445907A (zh) * 2015-08-06 2017-02-22 北京国双科技有限公司 一种领域词典的生成方法及装置
CN106598999A (zh) * 2015-10-19 2017-04-26 北京国双科技有限公司 一种计算文本主题归属度的方法及装置
CN106469187A (zh) * 2016-08-29 2017-03-01 东软集团股份有限公司 关键词的提取方法及装置
CN106547738A (zh) * 2016-11-02 2017-03-29 北京亿美软通科技有限公司 一种基于文本挖掘的金融类逾期短信智能判别方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
唐都钰等: "面向汽车领域的软文识别研究", 《山东大学学报》 *
郭红梅等: "基于图挖掘的文本主题识别方法研究综述", 《中国图书馆学报》 *

Cited By (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU2017435621B2 (en) * 2017-10-09 2022-01-27 Huawei Technologies Co., Ltd. Voice information processing method and device, and terminal
US11308965B2 (en) 2017-10-09 2022-04-19 Huawei Technologies Co., Ltd. Voice information processing method and apparatus, and terminal
CN108509412A (zh) * 2018-03-02 2018-09-07 北京搜狗科技发展有限公司 一种数据处理方法、装置、电子设备以及存储介质
CN110209804A (zh) * 2018-04-20 2019-09-06 腾讯科技(深圳)有限公司 目标语料的确定方法和装置、存储介质及电子装置
CN108871370A (zh) * 2018-07-03 2018-11-23 北京百度网讯科技有限公司 导航方法、装置、设备和介质
CN111178081A (zh) * 2018-11-09 2020-05-19 中移(杭州)信息技术有限公司 语义识别的方法、服务器、电子设备及计算机存储介质
CN111178081B (zh) * 2018-11-09 2023-07-21 中移(杭州)信息技术有限公司 语义识别的方法、服务器、电子设备及计算机存储介质
CN111199259B (zh) * 2018-11-19 2023-06-20 中国电信股份有限公司 标识转换方法、装置和计算机可读存储介质
CN111199259A (zh) * 2018-11-19 2020-05-26 中国电信股份有限公司 标识转换方法、装置和计算机可读存储介质
CN110442855A (zh) * 2019-04-10 2019-11-12 北京捷通华声科技股份有限公司 一种语音分析方法和系统
CN110442855B (zh) * 2019-04-10 2023-11-07 北京捷通华声科技股份有限公司 一种语音分析方法和系统
US11749255B2 (en) 2019-04-30 2023-09-05 Boe Technology Group Co., Ltd. Voice question and answer method and device, computer readable storage medium and electronic device
WO2020220914A1 (zh) * 2019-04-30 2020-11-05 京东方科技集团股份有限公司 语音问答方法及其装置、计算机可读存储介质和电子设备
CN110223695B (zh) * 2019-06-27 2021-08-27 维沃移动通信有限公司 一种任务创建方法及移动终端
CN110223695A (zh) * 2019-06-27 2019-09-10 维沃移动通信有限公司 一种任务创建方法及移动终端
CN110705308A (zh) * 2019-09-18 2020-01-17 平安科技(深圳)有限公司 语音信息的领域识别方法、装置、存储介质及电子设备
CN110705267A (zh) * 2019-09-29 2020-01-17 百度在线网络技术(北京)有限公司 语义解析方法、装置及存储介质
CN111243596A (zh) * 2020-01-08 2020-06-05 中保车服科技服务股份有限公司 基于语音识别的保险信息获取方法、装置、设备及存储介质
CN111666759A (zh) * 2020-04-17 2020-09-15 北京百度网讯科技有限公司 文本的关键信息的抽取方法、装置、电子设备及存储介质
CN111666759B (zh) * 2020-04-17 2024-03-26 北京百度网讯科技有限公司 文本的关键信息的抽取方法、装置、电子设备及存储介质
CN112614486A (zh) * 2020-10-30 2021-04-06 小狗电器互联网科技(北京)股份有限公司 应用于扫地机的语音控制执行功能方法、装置、电子设备

Also Published As

Publication number Publication date
US10777192B2 (en) 2020-09-15
US20180342241A1 (en) 2018-11-29
CN107193973B (zh) 2021-07-20

Similar Documents

Publication Publication Date Title
CN107193973A (zh) 语义解析信息的领域识别方法及装置、设备及可读介质
CN110069608B (zh) 一种语音交互的方法、装置、设备和计算机存储介质
CN107908635B (zh) 建立文本分类模型以及文本分类的方法、装置
CN106940788B (zh) 智能评分方法及装置、计算机设备及计算机可读介质
CN109360550B (zh) 语音交互系统的测试方法、装置、设备和存储介质
CN107729300B (zh) 文本相似度的处理方法、装置、设备和计算机存储介质
CN107220235A (zh) 基于人工智能的语音识别纠错方法、装置及存储介质
CN106782564A (zh) 用于处理语音数据的方法和装置
WO2022116420A1 (zh) 语音事件检测方法、装置、电子设备及计算机存储介质
CN107919130A (zh) 基于云端的语音处理方法和装置
CN109885825A (zh) 基于注意力机制的命名实体识别方法、装置和计算机设备
CN109192194A (zh) 语音数据标注方法、装置、计算机设备及存储介质
CN109599095A (zh) 一种语音数据的标注方法、装置、设备和计算机存储介质
CN109783631A (zh) 社区问答数据的校验方法、装置、计算机设备和存储介质
CN111090641A (zh) 数据处理方法及装置、电子设备、存储介质
CN107958215A (zh) 一种防欺诈识别方法、装置、服务器及存储介质
CN109726372A (zh) 基于通话记录的工单的生成方法、装置及计算机可读介质
CN113436611B (zh) 车载语音设备的测试方法、装置、电子设备和存储介质
CN110335608A (zh) 声纹验证方法、装置、设备及存储介质
CN110489747A (zh) 一种图像处理方法、装置、存储介质及电子设备
CN113064994A (zh) 会议质量评估方法、装置、设备及存储介质
CN113420556A (zh) 基于多模态信号的情感识别方法、装置、设备及存储介质
CN109815481A (zh) 对文本进行事件抽取的方法、装置、设备和计算机存储介质
CN108268602A (zh) 分析文本话题点的方法、装置、设备和计算机存储介质
CN116402166B (zh) 一种预测模型的训练方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant