CN111868711A - 信息处理方法以及信息处理装置 - Google Patents
信息处理方法以及信息处理装置 Download PDFInfo
- Publication number
- CN111868711A CN111868711A CN201880087369.7A CN201880087369A CN111868711A CN 111868711 A CN111868711 A CN 111868711A CN 201880087369 A CN201880087369 A CN 201880087369A CN 111868711 A CN111868711 A CN 111868711A
- Authority
- CN
- China
- Prior art keywords
- registration information
- database
- speaker
- text data
- searched
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000010365 information processing Effects 0.000 title claims description 49
- 238000003672 processing method Methods 0.000 title claims description 13
- 239000000284 extract Substances 0.000 claims abstract description 10
- 238000000034 method Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 5
- 235000015067 sauces Nutrition 0.000 description 5
- 239000008267 milk Substances 0.000 description 4
- 210000004080 milk Anatomy 0.000 description 4
- 235000013336 milk Nutrition 0.000 description 4
- 238000004590 computer program Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 210000000481 breast Anatomy 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M3/00—Automatic or semi-automatic exchanges
- H04M3/42—Systems providing special services or facilities to subscribers
- H04M3/487—Arrangements for providing information services, e.g. recorded voice services or time announcements
- H04M3/493—Interactive information services, e.g. directory enquiries ; Arrangements therefor, e.g. interactive voice response [IVR] systems or voice portals
- H04M3/4931—Directory assistance systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/22—Interactive procedures; Man-machine interfaces
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
- G06F16/9032—Query formulation
- G06F16/90332—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
- G06F16/90335—Query processing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
- G06F16/9038—Presentation of query results
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/02—Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/06—Decision making techniques; Pattern matching strategies
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M1/00—Substation equipment, e.g. for use by subscribers
- H04M1/26—Devices for calling a subscriber
- H04M1/27—Devices whereby a plurality of signals may be stored simultaneously
- H04M1/271—Devices whereby a plurality of signals may be stored simultaneously controlled by voice recognition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M2201/00—Electronic components, circuits, software, systems or apparatus used in telephone systems
- H04M2201/40—Electronic components, circuits, software, systems or apparatus used in telephone systems using speech recognition
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M2203/00—Aspects of automatic or semi-automatic exchanges
- H04M2203/55—Aspects of automatic or semi-automatic exchanges related to network data storage and management
- H04M2203/558—Databases
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Acoustics & Sound (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Signal Processing (AREA)
- Business, Economics & Management (AREA)
- Game Theory and Decision Science (AREA)
- Telephone Function (AREA)
- Telephonic Communication Services (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
语音识别单元(3)将说话者的语音变换为文本数据。意图估计单元(4)从文本数据提取通称,从数据库(2)搜索满足与通称对应的条件的注册信息。搜索结果输出单元(5)将搜索到的注册信息提示给说话者。
Description
技术领域
本发明涉及信息处理方法以及信息处理装置。
背景技术
以往,公开了根据用户发出的说话语音的文本数据,理解用户的请求,执行与请求相应的任务的技术。
现有技术文献
专利文献
专利文献1:国际公开2016/002406号
发明内容
发明要解决的课题
以往,例如,通过预先在数据库中存储包含家人和熟人的姓名(例如,日产花子)以及电话号码的注册信息,对语音输入装置如“给日产花子打电话”那样说话,可以由“日产花子”搜索电话号码并打电话。
但是,在日常的会话中,有用姓名以外的通称(例如,妈妈)呼唤家人等的情况。如上述那样,通常在注册信息中注册姓名(例如,日产花子),所以即使如“给妈妈打电话”那样说话,也无法识别“日产花子”就是“妈妈”,不能打电话。不仅如此,即使假设存储了注册信息,也无法从该通称搜索该注册信息,无法对说话者提示注册信息。
本发明是鉴于上述课题而完成的,其目的在于提供可以根据通称从数据库搜索注册信息并对说话者提示的信息处理方法以及信息处理装置。
用于解决课题的手段
本发明的一个方式的信息处理方法,将说话者的语音变换为文本数据,从文本数据提取通称。然后,从数据库搜索满足与通称对应的条件的注册信息,对说话者提示搜索到的注册信息。
发明的效果
按照本发明,可以根据通称从数据库搜索注册信息并对说话者提示。
附图说明
图1是表示实施方式的信息处理装置的概略结构的方框图。
图2是表示用户数据库2的结构的一个例子的图。
图3是表示坐进对象车辆的驾驶员打电话时的信息处理装置100的动作的流程图。
图4是表示驾驶员进行电话号码的输入操作而进行了电话的呼出后的通话中的信息处理装置100的动作的流程图。
图5是表示在与图4同样的状况下进行的电话的通话中的信息处理装置100的另一动作的流程图。
图6是表示在对象车辆的车内驾驶员与同乘者会话时的信息处理装置100的动作的流程图。
具体实施方式
参照附图,说明实施方式。在附图的记载中对同一部分附加同一标号而省略说明。
图1所示的实施方式的信息处理装置100与通称数据库1以及用户数据库2一起被安装在车辆上。以下,将该车辆称为对象车辆。而且,通过将通称数据库1以及用户数据库2设置在车外,经由车载的通信装置从外部访问通称数据库1以及用户数据库2,可以实现与车载的情况相同的功能。
信息处理装置100包括:语音识别单元3、意图估计单元4、搜索结果输出单元5、数据库更新单元6、电话处理单元7以及声纹识别单元8。
信息处理装置100是具有CPU(中央处理装置)、存储器以及输入输出单元的通用的微计算机(也称为控制单元),执行后述的信息处理方法。在该微计算机中,被安装具有作为信息处理装置的功能的计算机程序(信息处理程序)。通过执行计算机程序,微计算机具有作为信息处理装置具有的多个信息处理电路(3~8)的功能。而且,这里,列举了通过软件实现信息处理装置具有的多个信息处理电路(3~8)的例子,当然,也可以准备用于执行以下所示的各信息处理的专用的硬件,构成信息处理电路(3~8)。而且,也可以通过单独的硬件构成多个信息处理电路(3~8)。进而,信息处理电路(3~8)也可以与用于车辆有关的其它控制的电子控制单元(ECU)兼用。
通称数据库1被注册有在日常会话中使用的通称,例如,“妈妈”、“爸爸”、“奶奶”、“爷爷”等。而且,在企业内等中还使用“科长”、“部长”等通称,所以也被注册这样的通称。而且,作为称呼“一郎”这样的名字的人的通称,还被注册“一酱”等。
用户数据库2被设置给对象车辆中乘车的每个乘员。这里,设为乘员仅为1个驾驶员,仅设置对于该驾驶员的用户数据库2。对用户数据库2被设置给多个乘员的每一个的情况,另外说明。
如图2所示,用户数据库2对于驾驶员的家人或熟人(以下,称为关系人)的每1人准备注册信息。各注册信息具有关系人的姓和名字、关系人的通称、关系人的性别、关系人的自己家的电话号码(图2的“第1电话号码”)、关系人的移动电话的电话号码(图2的称为“第2电话号码”)、关系人的工作场所的电话号码(图2的“第3电话号码”)、关系人自己家的住所、关系人的声音的声纹以及历史信息(例如,表示电话的频率等的信息)。而且,也可以有信息不足的注册信息。例如,在得不到通称或声纹的关系人的注册信息中不包含通称将声纹。
语音识别单元3识别驾驶员说话的语音,变换为文本数据。
意图估计单元4从文本数据提取通称和指令。指令是表示驾驶员即说话者希望的控制的单词等。具体地说,意图估计单元4从文本数据提取与在通称数据库1中注册的通称相同的通称。而且,对于指令也同样,提取与预先被注册在数据库(未图示)中的指令相同的指令。
然后,意图估计单元4从用户数据库2搜索满足与通称对应的条件的注册信息。搜索结果输出单元5将意图估计单元4的搜索结果(注册信息)提示给驾驶员。
数据库更新单元6在意图估计单元4搜索到的注册信息中写入通称和声纹识别单元8检测到的声纹,更新历史信息。而且,数据库更新单元6在用户数据库2中生成新的注册信息。
在提取出的指令是与电话有关的指令的情况下,电话处理单元7使用意图估计单元4搜索到的注册信息,进行与指令相应的控制。具体地说,进行电话的呼出、呼入、语音处理等。而且,电话处理单元7检测电话对方的电话号码。声纹识别单元8从电话中的说话检测声纹。
图3是表示乘入了对象车辆的驾驶员打电话时的信息处理装置100的动作的流程图。而且,设为对于信息处理装置100来说,已知驾驶员的姓和名字、性别、第1电话号码~第3电话号码、住所、声纹这样的信息。在后述的图4、图5的动作时也设为已知这些信息。
首先,驾驶员(说话者)若“给妈妈打电话”这样说话(S1),则语音识别单元3从未图示的语音输入装置(话筒)获取驾驶员的说话的语音。然后,对语音进行语音识别,变换为文本数据(S3)。“打电话”,在这里是表示驾驶员(说话者)希望的控制的指令。
接着,意图估计单元4将文本数据分解为单词,提取与被注册在通称数据库1中的通称相同的单词,即通称(例如“妈妈”)(S5)。而且,意图估计单元4提取被注册在与预先指令的数据库(未图示)中的指令相同的单词,即指令(例如“打电话”)(S5)。
接着,意图估计单元4从用户数据库2搜索满足与在步骤S5中提取的通称对应的条件的注册信息(S7)。在没有满足条件的注册信息的情况下(S9:“否”),结束处理。即,无法进行基于语音的电话的呼出,例如,驾驶员进行对方的电话号码的输入操作,电话处理单元7进行电话的呼出、语音处理等。另一方面,在有满足条件的注册信息的情况下(S9:“是”),进至步骤S11。
这里,说明步骤S7、S9。
意图估计单元4搜索含有在步骤S5中提取的通称的注册信息(S7),判定是否存在这样的注册信息(S9),在存在的情况下(S9:“是”),读出该注册信息。而且,在用户数据库2中仅存在一个含有通称的注册信息的情况下,可以省略后述的步骤S11、S13。
而且,在通称“妈妈”中,这里预先关联存储“姓相同,并且,自己家的住所相同,并且,性别为女性”这样的条件。
在没有含有通称的注册信息的情况下,若驾驶员的姓为“日产”,则意图估计单元4搜索例如含有姓“日产”,并且自己家的住所相同的、并且,性别为女性的注册信息(满足条件的注册信息)(S7)。然后,判定是否存在这样的注册信息(S9),在存在的情况下(S9:“是”),读出该注册信息(例如,包含“日产”“花子”的注册信息)。
而且,在通称“科长”中,这里预先关联存储“第3电话号码相同”那样的条件。
在没有包含通称的注册信息的情况下,意图估计单元4搜索含有与驾驶员的“第3电话号码”相同的“第3电话号码”的注册信息(满足条件的注册信息)(S7)。然后,判定是否存在那样的注册信息(S9),在存在的情况下(S9:“是”),读出该注册信息。
在步骤S11中,搜索结果输出单元5对驾驶员提示意图估计单元4的搜索结果(注册信息)(S11)。这里,例如将注册信息内的姓“日产”、名字“花子”如““妈妈”是“日产”“花子”吗?”那样输出语音(S11)。
对此,若驾驶员说“是的”(S13),则语音识别单元3对驾驶员的说话的语音进行语音识别而变换为文本数据,意图估计单元4识别是“肯定”的回答。即,含有“日产”“花子”的注册信息被确定。
这里,在步骤S7说明多个注册信息被搜索的情况。
例如,在含有姓“日产”、名字“花子”的注册信息、以及含有姓“日产”、名字“直子”的注册信息被搜索的情况下,搜索结果输出单元5使用在步骤S5中提取的通称“妈妈”,输出如““妈妈”是“日产”“花子”,还是“日产”“直子”?”这样输出语音(S11)。
对此,若驾驶员说“是“日产”“花子””(S13),则语音识别单元3对驾驶员的说话的语音进行语音识别而变换为文本数据,意图估计单元4识别是““日产”“花子””的回答。即,含“日产”“花子”的注册信息被确定。该注册信息可以称作通过驾驶员(说话者)说话而选择的注册信息。
这样,若一个注册信息被确定,则电话处理单元7使用该确定的注册信息,进行与指令相应的控制(S15)。在步骤S15中,例如呼叫注册信息中的任何一个电话号码,在电话中进行语音处理。
而且,声纹识别单元8从步骤S15中的电话中的说话来检测电话对方的声纹(S17)。
接着,数据库更新单元6对被确定的注册信息,写入在步骤S5中提取的通称、以及在步骤S17中检测到的声纹(S19)。然后,更新历史信息,结束处理。
如以上那样,按照图3的流程图,将说话者(驾驶员)的语音变换为文本数据(S3),从文本数据提取通称(妈妈、科长)(S5)。然后,从数据库(2)搜索满足与通称(妈妈、科长)对应的条件的注册信息(S7),将搜索到的注册信息提示给说话者(S11)。由此,可以根据通称从数据库(2)搜索注册信息而提示给说话者。
而且,通过在搜索到的注册信息中写入通称(S19),对于该注册信息,下次之后只要搜索含有通称的注册信息即可,不需要搜索与通称对应的条件的注册信息。
而且,从文本数据提取表示说话者(驾驶员)希望的控制的指令(S5),使用在步骤S7中搜索到的注册信息,进行与指令相应的控制(电话)(S15)。由此,通过说出通称和指令,可以进行与指令相应的控制。
而且,将搜索到的多个注册信息(日产花子、日产直子)提示给说话者(驾驶员)(S11),在说话者选择的注册信息中写入通称(S19)。
由此,对于该注册信息,下次之后只要搜索含有通称的注册信息即可,不需要搜索与通称对应的条件的注册信息。
图4是表示无法进行基于语音的呼出,驾驶员进行电话号码的输入操作从而进行了电话的呼出后的通话中的信息处理装置100的动作的流程图。
首先,电话处理单元7检测电话对方(驾驶员以通称称呼的对象者)的电话号码(S21)。
而且,若驾驶员在电话中,如“妈妈,下周日有时间吗?”或者“一酱,下周日有时间吗?”那样说话(S23),则语音识别单元3对驾驶员的说话的语音进行语音识别,变换为文本数据(S25)。
接着,意图估计单元4将文本数据分解为单词,提取与通称数据库1中注册的通称相同的单词,即通称“妈妈”或者“一酱”(S27)。
而且,若电话对方(对象者)如“有时间,有什么事情吗?”那样说话(S29),则声纹识别单元8从说话的语音来检测电话对方的声纹(S31)。
接着,意图估计单元4参照用户数据库2,判定在用户数据库2中是否存在含有在步骤S21中检测到的电话对方的电话号码的注册信息(S33)。即,从用户数据库2搜索含有电话对方的电话号码的注册信息。
在存在相应的注册信息的情况下(S33:“是”),数据库更新单元6对注册信息写入在步骤S27中提取的通称、以及在步骤S31中检测到的声纹(S35),结束处理。
在步骤S35中,例如在以通称“妈妈”称呼的“日产”“花子”的注册信息中写入通称“妈妈”和“日产”“花子”的声纹。
另一方面,在不存在相应的注册信息的情况下(S33:“否”),数据库更新单元6在用户数据库2中新生成含有在步骤S21中检测到的电话号码(电话对方的电话号码)、步骤S27中提取出的通称(电话对方的通称)、以及步骤S31中检测到的声纹(电话对方的声纹)的注册信息(S37),结束处理。
在步骤S37中,例如,在用户数据库2中生成含有通称“一酱”和电话号码和声纹的注册信息。而且,该注册信息的其它的信息(姓、名字等)也可以通过之后的输入操作等追加。
通过图4的处理,驾驶员可以将呼唤“日产”“花子”时的通称“妈妈”与“日产”“花子”的声纹写入到用户数据库2中的“日产”“花子”的注册信息中。
而且,驾驶员可以在用户数据库2中生成含有驾驶员称呼通称“一酱”的人的电话号码、声纹和通称“一酱”的注册信息。
如以上那样,按照图4的流程图,将在与以通称称呼的对象者(电话对方)的电话中的说话者(驾驶员)的语音变换为文本数据(S25),从文本数据提取通称(妈妈,一酱)(S27),检测对象者(电话对方)的电话号码(S21),从数据库(2)搜索含有电话号码的注册信息(S33)。
然后,在数据库(2)中存在包含搜索到的电话号码的注册信息的情况下(S33:“是”),在含有电话号码的注册信息中写入通称(妈妈)(S35)。
由此,对于该注册信息,下次之后只要搜索含有通称的注册信息即可,不需要搜索与通称对应的条件的注册信息。
而且,在数据库中不存在含有搜索到的电话号码的注册信息的情况下(S33:“否”),在数据库(2)中生成含有电话号码和通称(一酱)的注册信息(S37)。
由此,对于该注册信息,下次之后只要搜索含有通称的注册信息即可,不需要搜索与通称对应的条件的注册信息。
图5是表示在与图4同样的状况下进行的电话的通话中的信息处理装置100的另一动作的流程图。这里,说明设为不需要图4的步骤S21(电话号码的检测)的动作。
首先,若驾驶员(说话者)如“妈妈,下周日有时间吗?”那样说话(S41),则语音识别单元3对驾驶员的说话的语音进行语音识别,变换为文本数据(S43)。
接着,意图估计单元4将文本数据分解为单词,提取与通称数据库1中注册的通称相同的单词,即通称“妈妈”(S45)。
而且,如果电话对方(与说话者对话中的对象者)如“有时间,有什么事情吗?”那样说话(S47),则声纹识别单元8从说话的语音来检测电话对方的声纹(S49)。
接着,意图估计单元4从用户数据库2搜索含有在步骤S49中检测到的声纹的注册信息(S51)。
在有包含在步骤S49中检测到的声纹的多个注册信息的情况下(S53:“是”),搜索结果输出单元5将意图估计单元4的搜索结果提示给驾驶员(S55)。
例如,在“日产”、“花子”的声纹与“日产”、“直子”的声纹类似的情况下,按照声纹检测的精度,有搜索含有姓“日产”,名字“花子”的注册信息、和包含姓“日产”,名字“直子”的注册信息的情况。即,有搜索多个注册信息的情况。
在该情况下,搜索结果输出单元5使用在步骤S27中提取出的通称“妈妈”,如““妈妈”是“日产”“花子”,还是“日产”“直子”?”这样输出语音(S55)。即,将多个注册信息提示给说话者(驾驶员)。
对此,若驾驶员说“是“日产”“花子””(S57),则语音识别单元3对驾驶员的说话的语音进行语音识别而变换为文本数据,意图估计单元4识别为是““日产”“花子””的回答。
即,含有“日产”“花子”的注册信息被确定。而且,在含有在步骤S31中检测到的声纹的注册信息为一个的情况下(S53:“否”),这一个注册信息被确定。
这样,若一个注册信息被确定,则数据库更新单元6对被确定的注册信息,写入在步骤S45中提取出的通称(S59)。然后,更新历史信息,结束处理。
通过图5的处理,可以将驾驶员称呼“日产”“花子”时的通称“妈妈”写入到用户数据库2中的“日产”“花子”的注册信息内。
而且,在驾驶员用通称“科长”称呼的“青山”“一郎”是电话对方的情况下,可以将通称“科长”写入到用户数据库2中的“青山”“一郎”的注册信息内。
而且,若作为电话对方的“青山”“一郎”乘坐的车辆中也安装了信息处理装置100,则可以将“青山”“一郎”称呼驾驶员“日产”“太郎”时的通称,例如“日产君”写入到“青山”“一郎”乘坐的车辆的“日产”“太郎”的注册信息中。
如以上那样,按照图5的流程图,将在与用通称称呼的对象者(电话对方)的对话中的说话者(驾驶员)的语音变换为文本数据(S43),从文本数据提取通称(妈妈)(S45),从与说话者的对话中的对象者(电话对方)的语音检测声纹(S49)。然后,从数据库(2)搜索含有声纹的注册信息(S51),在搜索到的注册信息中写入通称(S59)。
由此,对于该注册信息,下次之后只要搜索含有通称的注册信息即可,不需要搜索与通称对应的条件的注册信息。
而且,将搜索到的多个注册信息(日产花子,日产直子)提示给说话者(驾驶员)(S55),在说话者选择的注册信息中写入通称(S59)。
由此,对于该注册信息,下次之后只要搜索含有通称的注册信息即可,不需要搜索与通称对应的条件的注册信息。
图6是表示在对象车辆的车内驾驶员与同乘者会话时的信息处理装置100的动作的流程图。将该驾驶员称为驾驶员A,将该同乘者称为同乘者B。
这里,对驾驶员A和同乘者B,即对多个乘员的每一个被设置用户数据库2。
而且,对于信息处理装置100来说,假设驾驶员A和同乘者B的姓和名字、性别、第1电话号码~第3电话号码、住所、声纹这样的信息已知。
首先,若驾驶员A和同乘者B的一方(说话者)说出“妈妈,下周日有时间吗?”那样的话(S71),则声纹识别单元8从说话的语音来检测说话者的声纹(S73)。
接着,意图估计单元4根据在步骤S72中检测到的声纹,确定说话者是驾驶员A还是同乘者B,将确定出的说话者的用户数据库2选择为处理对象(S75)。
例如,预先使驾驶员A的用户数据库2存储驾驶员A的声纹,使同乘者B的用户数据库2存储同乘者B的声纹,通过核对检测到的声纹,可以确定说话者。
而且,语音识别单元3对在步骤S71的说话的语音进行语音识别,变换为文本数据(S77)。
接着,意图估计单元4将文本数据分解为单词,提取与通称数据库1中注册的通称相同的单词,即通称“妈妈”(S79)。
然后,若对方说出“有时间,有什么事情吗?”那样的话(S81),则声纹识别单元8从说话的语音来检测对方的声纹(S83)。
接着,意图估计单元4从在步骤S75中选择的用户数据库2搜索含有在步骤S83中检测到的声纹的注册信息(S85)。而且,在含有检测到的声纹的注册信息有多个的情况下,只要如图5那样提示搜索结果,根据说话,确定一个注册信息即可。
然后,数据库更新单元6对确定的注册信息,写入在步骤S79中提取出的通称(S87)。然后,更新历史信息,结束处理。
通过图6的处理,可以将驾驶员A在呼唤同乘者B时的通称“妈妈”写入到驾驶员A的用户数据库2中的同乘者B的注册信息内。而且,通过反复进行图6的处理,可以在另外的定时,将同乘者B呼唤驾驶员A时的通称“爸爸”写入到同乘者B的用户数据库2中的驾驶员A的注册信息中。
在日本,在驾驶员A和同乘者B为夫妇的情况下,有时这样称呼对方为“妈妈”、“爸爸”。
而且,也可以对同乘者B与另一名的同乘者(称为同乘者C)的会话进行同样的处理。在同乘者C是同乘者B的孙子的情况下,考虑同乘者C将同乘者B叫作通称“奶奶”。在该情况下,通称“奶奶”被写入到同乘者C(孙)的用户数据库2中的同乘者B的注册信息内。
即,在驾驶员A(夫)的用户数据库2中的同乘者B的注册信息中写入的通称“妈妈”和在同乘者C(孙)的用户数据库2中的同乘者B的注册信息中写入的通称“奶奶”,即使是在称呼相同的同乘者B时的通称也不同。
由此,驾驶员A(夫)通过说“给妈妈打电话”,可以给同乘者B打电话,同乘者C(孙)通过说“给奶奶打电话”,可以给同乘者B打电话。即,可以用各个叫法给同乘者B打电话。
如以上那样,按照图6的流程图,将与用通称称呼的对象者的对话中的说话者的语音变换为文本数据(S77),从文本数据提取通称(妈妈)(S79),从与说话者的对话中的对象者(会话的相手)的语音来检测声纹(S83)。然后,从数据库(2)搜索声纹被注册的注册信息(S85),在搜索到的注册信息中写入通称(S87)。
由此,对于该注册信息,下次之后只要搜索含有通称的注册信息即可,不需要搜索与通称对应的条件的注册信息。
以上,对实施方式进行了说明,但是通过进行同样的处理,可以实施各种变形例。
例如,信息处理装置100不仅可以安装在车辆(四轮车),还可以安装在摩托车,自行车等交通工具上。而且,也可以将信息处理装置100内置于电话机(固定电话或者移动电话)内。这时,电话处理单元7只要挪用电话机的电话处理单元即可。
而且,也可以将信息处理装置100设置在会议室等中,进行图6的处理。
而且,也可以将信息处理装置100安装在与因特网等连接的可通信的计算机中,文本数据可以从电子邮件或对话用的应用软件等获取。这时,只要取代电话号码,使用电子邮件地址或用户ID即可。并且,也可以取代电话的会话,进行电子邮件的发送接收或对话用的应用软件中的对话。
输入如上述那样记载了本发明的实施方式,但是成为该公开的一部分的论述以及附图不应理解为限定该发明。从该公开,对本领域的技术人员来说明了各种代替实施方式、实施例以及运用技术。
在上述的各实施方式中示出的各功能能够通过1个或者多个处理电路来实现。处理电路包括包含电气电路的处理装置等被编程的处理装置。处理装置还包括以执行实施方式中记载的功能的方式被安排的面向确定用途的集成电路(ASIC)或常规型的电路部件那样的装置。
标号说明
1 通称数据库
2 用户数据库(数据库)
3 语音识别单元
4 意图估计单元
5 搜索结果输出单元
6 数据库更新单元
7 电话处理单元
8 声纹识别单元
100 信息处理装置
Claims (8)
1.一种信息处理装置的信息处理方法,从数据库搜索注册信息,其特征在于,
将说话者的语音变换为文本数据,
从所述文本数据提取通称,
从所述数据库搜索满足与所述通称对应的条件的注册信息,
将搜索到的所述注册信息提示给所述说话者。
2.如权利要求1所述的信息处理方法,其特征在于,
在搜索到的所述注册信息中写入所述通称。
3.如权利要求1或2所述的信息处理方法,其特征在于,
从所述文本数据提取表示所述说话者希望的控制的指令,
使用搜索到的所述注册信息,进行与所述指令相应的控制。
4.如权利要求1至3的任意一项所述的信息处理方法,其特征在于,
将与用所述通称称呼的对象者的电话中的所述说话者的语音变换为所述文本数据,
从所述文本数据提取通称,
检测所述对象者的电话号码,
从所述数据库搜索含有所述电话号码的注册信息,
在所述数据库中存在包含搜索到的所述电话号码的所述注册信息的情况下,在包含所述电话号码的所述注册信息中写入所述通称。
5.如权利要求4所述的信息处理方法,其特征在于,
在所述数据库中不存在含有搜索到的所述电话号码的所述注册信息的情况下,在所述数据库中生成含有所述电话号码和所述通称的注册信息。
6.如权利要求1至5的任意一项所述的信息处理方法,其特征在于,
将与用所述通称称呼的对象者的对话中的所述说话者的语音变换为所述文本数据,
从所述文本数据提取通称,
从与所述说话者的对话中的所述对象者的语音检测声纹,
从所述数据库搜索含有所述声纹的所述注册信息,
在搜索到的所述注册信息中写入所述通称。
7.如权利要求1或6所述的信息处理方法,其特征在于,
将搜索到的多个所述注册信息提示给所述说话者,
在所述说话者选择的所述注册信息中写入所述通称。
8.一种信息处理装置,其特征在于,包括:
数据库,存储注册信息;
语音识别单元,将说话者的语音变换为文本数据;
意图估计单元,从所述文本数据提取通称,从所述数据库搜索满足与所述通称对应的条件的注册信息;以及
搜索结果输出单元,将搜索到的所述注册信息提示给所述说话者。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2018/004036 WO2019155526A1 (ja) | 2018-02-06 | 2018-02-06 | 情報処理方法及び情報処理装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111868711A true CN111868711A (zh) | 2020-10-30 |
Family
ID=67548238
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201880087369.7A Pending CN111868711A (zh) | 2018-02-06 | 2018-02-06 | 信息处理方法以及信息处理装置 |
Country Status (5)
Country | Link |
---|---|
US (1) | US11200905B2 (zh) |
EP (1) | EP3751562A4 (zh) |
JP (1) | JP7079419B2 (zh) |
CN (1) | CN111868711A (zh) |
WO (1) | WO2019155526A1 (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103780771A (zh) * | 2012-10-23 | 2014-05-07 | 华为技术有限公司 | 语音业务的处理方法和装置 |
US8744995B1 (en) * | 2012-07-30 | 2014-06-03 | Google Inc. | Alias disambiguation |
CN105872177A (zh) * | 2016-05-31 | 2016-08-17 | 努比亚技术有限公司 | 一种确定联系人与机主关系的称谓的系统及方法 |
CN105933493A (zh) * | 2016-04-20 | 2016-09-07 | 乐视控股(北京)有限公司 | 一种陌生来电处理方法、装置及移动终端 |
CN106603792A (zh) * | 2017-01-20 | 2017-04-26 | 上海傲硕信息科技有限公司 | 一种号码查找设备 |
CN106657537A (zh) * | 2016-12-07 | 2017-05-10 | 努比亚技术有限公司 | 一种终端语音搜索通话记录装置及方法 |
Family Cites Families (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6901431B1 (en) * | 1999-09-03 | 2005-05-31 | Cisco Technology, Inc. | Application server providing personalized voice enabled web application services using extensible markup language documents |
US7013280B2 (en) * | 2001-02-27 | 2006-03-14 | International Business Machines Corporation | Disambiguation method and system for a voice activated directory assistance system |
US20030125869A1 (en) * | 2002-01-02 | 2003-07-03 | International Business Machines Corporation | Method and apparatus for creating a geographically limited vocabulary for a speech recognition system |
JP2006174111A (ja) | 2004-12-16 | 2006-06-29 | Matsushita Electric Ind Co Ltd | 電話装置 |
US7590536B2 (en) * | 2005-10-07 | 2009-09-15 | Nuance Communications, Inc. | Voice language model adjustment based on user affinity |
US8010343B2 (en) * | 2005-12-15 | 2011-08-30 | Nuance Communications, Inc. | Disambiguation systems and methods for use in generating grammars |
JP4640228B2 (ja) | 2006-03-24 | 2011-03-02 | 日本電気株式会社 | 通信端末におけるニックネーム登録方法及びその装置 |
US8374862B2 (en) * | 2006-08-30 | 2013-02-12 | Research In Motion Limited | Method, software and device for uniquely identifying a desired contact in a contacts database based on a single utterance |
KR100897553B1 (ko) * | 2007-01-04 | 2009-05-15 | 삼성전자주식회사 | 사용자의 기기 사용 패턴을 이용한 음성 인식 방법 및 장치 |
EP2158540A4 (en) * | 2007-06-18 | 2010-10-20 | Geographic Services Inc | NAME SYSTEM FOR SELECTING GEOGRAPHICAL CHARACTERISTICS |
US10241644B2 (en) * | 2011-06-03 | 2019-03-26 | Apple Inc. | Actionable reminder entries |
US9117448B2 (en) * | 2009-07-27 | 2015-08-25 | Cisco Technology, Inc. | Method and system for speech recognition using social networks |
JP2011180729A (ja) * | 2010-02-26 | 2011-09-15 | Sony Corp | 情報処理装置、キーワード登録方法及びプログラム |
US8606579B2 (en) | 2010-05-24 | 2013-12-10 | Microsoft Corporation | Voice print identification for identifying speakers |
JP2012222798A (ja) | 2011-04-14 | 2012-11-12 | Nakayo Telecommun Inc | 通話音声履歴機能つき電話端末 |
US10593326B2 (en) * | 2013-04-25 | 2020-03-17 | Sensory, Incorporated | System, method, and apparatus for location-based context driven speech recognition |
US9484025B2 (en) * | 2013-10-15 | 2016-11-01 | Toyota Jidosha Kabushiki Kaisha | Configuring dynamic custom vocabulary for personalized speech recognition |
JP2015115844A (ja) | 2013-12-13 | 2015-06-22 | キヤノンマーケティングジャパン株式会社 | 取次支援システム、取次支援方法、およびプログラム |
JP6346281B2 (ja) | 2014-07-04 | 2018-06-20 | クラリオン株式会社 | 車載対話型システム、及び車載情報機器 |
US9544412B2 (en) * | 2015-03-09 | 2017-01-10 | Ford Global Technologies, Llc | Voice profile-based in-vehicle infotainment identity identification |
-
2018
- 2018-02-06 CN CN201880087369.7A patent/CN111868711A/zh active Pending
- 2018-02-06 WO PCT/JP2018/004036 patent/WO2019155526A1/ja unknown
- 2018-02-06 EP EP18905724.3A patent/EP3751562A4/en not_active Ceased
- 2018-02-06 US US16/967,158 patent/US11200905B2/en active Active
- 2018-02-06 JP JP2019570177A patent/JP7079419B2/ja active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8744995B1 (en) * | 2012-07-30 | 2014-06-03 | Google Inc. | Alias disambiguation |
CN103780771A (zh) * | 2012-10-23 | 2014-05-07 | 华为技术有限公司 | 语音业务的处理方法和装置 |
CN105933493A (zh) * | 2016-04-20 | 2016-09-07 | 乐视控股(北京)有限公司 | 一种陌生来电处理方法、装置及移动终端 |
CN105872177A (zh) * | 2016-05-31 | 2016-08-17 | 努比亚技术有限公司 | 一种确定联系人与机主关系的称谓的系统及方法 |
CN106657537A (zh) * | 2016-12-07 | 2017-05-10 | 努比亚技术有限公司 | 一种终端语音搜索通话记录装置及方法 |
CN106603792A (zh) * | 2017-01-20 | 2017-04-26 | 上海傲硕信息科技有限公司 | 一种号码查找设备 |
Also Published As
Publication number | Publication date |
---|---|
JPWO2019155526A1 (ja) | 2021-01-28 |
US11200905B2 (en) | 2021-12-14 |
US20200365161A1 (en) | 2020-11-19 |
EP3751562A1 (en) | 2020-12-16 |
EP3751562A4 (en) | 2020-12-16 |
JP7079419B2 (ja) | 2022-06-02 |
WO2019155526A1 (ja) | 2019-08-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3168033B2 (ja) | 音声テレフォン・ダイヤリング | |
US20080139178A1 (en) | Privacy Protection Device for Hands-Free Function | |
US6694295B2 (en) | Method and a device for recognizing speech | |
US7450698B2 (en) | System and method of utilizing a hybrid semantic model for speech recognition | |
KR101664080B1 (ko) | 음성 다이얼링 시스템 및 방법 | |
US8369492B2 (en) | Directory dialer name recognition | |
US20070127640A1 (en) | System, method and computer program for sending an email message from a mobile communication device based on voice input | |
CN107871503A (zh) | 语音对话系统以及发声意图理解方法 | |
JP2001509285A (ja) | 話者依存及び話者非依存音声認識を用いた多局ネットワークの音声制御された機能を作動する方法及び装置 | |
EP1170932B1 (en) | Audible identification of caller and callee for mobile communication device | |
JP2002540731A (ja) | 携帯電話機による使用のための数字列を生成するシステムおよび方法 | |
US20060190260A1 (en) | Selecting an order of elements for a speech synthesis | |
US7844459B2 (en) | Method for creating a speech database for a target vocabulary in order to train a speech recognition system | |
CN107103899A (zh) | 输出语音消息的方法和装置 | |
JP2001274907A (ja) | 発信者認識システムおよび発信者認識方法 | |
JP4905361B2 (ja) | 音声認識装置、音声認識方法、及び音声認識用プログラム | |
CN111868711A (zh) | 信息处理方法以及信息处理装置 | |
JP2014072701A (ja) | 通信端末 | |
KR100367481B1 (ko) | 발신번호를 이용한 음성인식/합성 전화기 및 그 방법 | |
JP2005520194A (ja) | テキストメッセージの生成 | |
JP2002304392A (ja) | 音声翻訳システム | |
US20170116984A1 (en) | Auto dialing system and computer readable recording medium that stores program for executing auto dialing method | |
US10926637B2 (en) | Onboard voice outputting device, voice outputting device, voice outputting method, and computer-readable storage medium | |
JP5143062B2 (ja) | 悪意の第三者からの不当呼を判定する方法及び電話自動応対装置 | |
JP4466171B2 (ja) | 情報検索装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |