DE112017006145T5

DE112017006145T5 - Informationsverarbeitungsvorrichtung, informationsverarbeitungsverfahren und informationsverarbeitungssystem

Info

Publication number: DE112017006145T5
Application number: DE112017006145.8T
Authority: DE
Inventors: Yuhei Taki; Shinichi Kawano; Kuniyo Oishi; Tetsuya Asayama
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2016-12-05
Filing date: 2017-11-21
Publication date: 2019-08-22
Also published as: US20200075015A1; US11189289B2; JPWO2018105373A1; KR20190091265A; JP6950708B2

Abstract

Die vorliegende Technologie bezieht sich auf eine Informationsverarbeitungsvorrichtung, ein Informationsverarbeitungsverfahren und ein Informationsverarbeitungssystem, mit welchen es möglich ist, ein reibungsloses und natürliches Gespräch mit einer Person zu führen, die Hörschwierigkeiten hat. Eine Informationsverarbeitungsvorrichtung nach einem Aspekt der vorliegenden Technologie enthält: eine Spracherfassungseinheit, die eine Sprachinformation eines ersten Benutzers erfasst, die in eine Spracheingabevorrichtung eingegeben wird; und eine Anzeigesteuereinheit, die, auf einer Anzeigevorrichtung für einen zweiten Benutzer, eine Anzeige einer Textinformation steuert, die der erfassten Sprachinformation entspricht. Die Anzeigesteuereinheit führt eine Steuerung in Bezug auf die angezeigte Menge der Textinformation auf der Anzeigevorrichtung auf der Grundlage von einer angezeigten Menge der Textinformation auf der Anzeigevorrichtung und/oder einer eingegebenen Menge der Sprachinformation, die durch die Spracheingabevorrichtung eingegeben wird, durch. Die vorliegende Technologie ist auf eine Gesprächsunterstützungsvorrichtung anwendbar, die Gespräche einer Person unterstützt, die Hörschwierigkeiten hat.

Description

Gebiet der Technik
Die vorliegende Technologie betrifft eine Informationsverarbeitungsvorrichtung, ein Informationsverarbeitungsverfahren und ein Informationsverarbeitungssystem. Insbesondere betrifft die vorliegende Technologie eine Informationsverarbeitungsvorrichtung, ein Informationsverarbeitungsverfahren und ein Informationsverarbeitungssystem, die in der Lage sind, eine natürliche Gesprächsführung unter Verwendung der Spracherkennung zu unterstützen.
Bisheriger Stand der Technik
Eine Technologie zum Umwandeln einer Sprachäußerung eines Benutzers in einen Text und zum Anzeigen des Textes auf einem Bildschirm ist als Spracherkennungsanwendungsprogramm unter Verwendung eines Smartphones oder dergleichen bekannt. Darüber hinaus gibt es eine Technologie zum Zusammenfassen eines als Spracherkennungsergebnis erhaltenen Textes.
Liste der Zitate
Patentliteratur
Patentliteratur 1: WO 2014-061388
Offenlegung der Erfindung
Technische Problemstellung
Die durch Textumwandlung erhaltene angezeigte Menge von Sätzen ist jedoch im Fall des Spracherkennungsanwendungsprogramms unter Verwendung eines Smartphones oder dergleichen begrenzt. Daher ist es wünschenswert, die Bereitstellung von Kommunikation unter Verwendung von Spracherkennung zu verbessern.
Die vorliegende Technologie wurde im Hinblick auf die oben beschriebenen Situationen entwickelt. Die vorliegende Technologie ist eine Technologie zur Unterstützung der natürlichen Gesprächsführung unter Verwendung der Spracherkennung.
Lösung des Problems
Eine Informationsverarbeitungsvorrichtung eines Aspekts der vorliegenden Technologie enthält: eine Schallerfassungseinheit, die konfiguriert ist, um eine Schallinformation eines ersten Benutzers zu erfassen, die in eine Schalleingabevorrichtung eingegeben wird; und eine Anzeigesteuereinheit, die konfiguriert ist, um die Anzeige einer Textinformation auf einer Anzeigevorrichtung für einen zweiten Benutzer zu steuern, wobei die Textinformation der erfassten Schallinformation entspricht. Die Anzeigesteuereinheit führt eine Steuerung in Bezug auf die angezeigte Menge der Textinformation auf der Grundlage von mindestens einer angezeigten Menge der Textinformation auf der Anzeigevorrichtung oder der eingegebenen Menge der Schallinformation, die durch die Schalleingabevorrichtung eingegeben wird, durch.
Ein Informationsverarbeitungsverfahren eines Aspekts der vorliegenden Technologie ist ein Informationsverarbeitungsverfahren einer Informationsverarbeitungsvorrichtung, die enthält: einen Schallerfassungsschritt des Erfassens, durch die Informationsverarbeitungsvorrichtung, einer Schallinformation eines ersten Benutzers, die in eine Schalleingabevorrichtung eingegeben wird; und einen Anzeigesteuerschritt des Steuerns, durch die Informationsverarbeitungsvorrichtung, der Anzeige einer Textinformation auf einer Anzeigevorrichtung für einen zweiten Benutzer, wobei die Textinformation der erfassten Schallinformation entspricht. In dem Anzeigesteuerschritt wird die Steuerung in Bezug auf die angezeigte Menge der Textinformation auf der Grundlage von mindestens einer angezeigten Menge der Textinformation auf der Anzeigevorrichtung oder der eingegebenen Menge der Schallinformation, die durch die Schalleingabevorrichtung eingegeben wird, durchgeführt.
Ein Informationsverarbeitungssystem eines Aspekts der vorliegenden Technologie enthält: eine Schalleingabevorrichtung, die konfiguriert ist, um die Schallinformation eines ersten Benutzers zu erfassen; eine Anzeigesteuervorrichtung, die konfiguriert ist, um die Anzeige einer Textinformation zu steuern, die der erfassten Schallinformation entspricht; und eine Anzeigevorrichtung, die konfiguriert ist, um die Textinformation für einen zweiten Benutzer unter der Steuerung der Anzeigesteuervorrichtung anzuzeigen. Die Anzeigesteuervorrichtung führt eine Steuerung in Bezug auf die angezeigte Menge der Textinformation auf der Grundlage von mindestens einer angezeigten Menge der Textinformation auf der Anzeigevorrichtung oder der eingegebenen Menge der Schallinformation, die durch die Schalleingabevorrichtung eingegeben wird, durch.
In einem Aspekt der vorliegenden Technologie wird eine Schallinformation eines ersten Benutzers, die eingegeben wird, erfasst, und die Anzeige der Textinformation auf einer Anzeigevorrichtung für einen zweiten Benutzer wird gesteuert, wobei die Textinformation der erfassten Schallinformation entspricht. Bei der Anzeigesteuerung wird die Steuerung in Bezug auf die angezeigte Menge der Textinformation auf der Grundlage von mindestens einer angezeigten Menge der Textinformation auf der Anzeigevorrichtung oder der eingegebenen Menge der Schallinformation, die durch die Schalleingabevorrichtung eingegeben wird, durchgeführt.
Vorteilhafte Wirkungen der Erfindung
Gemäß einem Aspekt der vorliegenden Technologie ist es möglich, ein natürliches Gespräch unter Verwendung von Spracherkennung zu führen.
Figurenliste

[1] 1 ist ein Diagramm, das ein erstes Konfigurationsbeispiel einer Gesprächsunterstützungsvorrichtung gemäß der vorliegenden Technologie veranschaulicht.
[2] 2 ist ein Blockdiagramm, das ein internes Konfigurationsbeispiel der Gesprächsunterstützungsvorrichtung gemäß der vorliegenden Technologie veranschaulicht.
[3] 3 ist ein funktionales Blockdiagramm einer Informationsverarbeitungseinheit.
[4] 4 ist ein Diagramm, das ein zweites Konfigurationsbeispiel einer Gesprächsunterstützungsvorrichtung gemäß der vorliegenden Offenbarung veranschaulicht.
[5] 5 ist ein Blockdiagramm, in dem strukturelle Elemente der Gesprächsunterstützungsvorrichtung in Übereinstimmung mit dem zweiten Konfigurationsbeispiel verteilt sind.
[6] 6 ist ein Diagramm, das ein drittes Konfigurationsbeispiel einer Gesprächsunterstützungsvorrichtung gemäß der vorliegenden Technologie veranschaulicht.
[7] 7 ist ein Diagramm, in dem strukturelle Elemente der Gesprächsunterstützungsvorrichtung in Übereinstimmung mit dem dritten Konfigurationsbeispiel verteilt sind.
[8] 8 ist ein Diagramm, das ein viertes Konfigurationsbeispiel einer Gesprächsunterstützungsvorrichtung gemäß der vorliegenden Offenbarung veranschaulicht.
[9] 9 ist ein Blockdiagramm, in dem strukturelle Elemente der Gesprächsunterstützungsvorrichtung in Übereinstimmung mit dem vierten Konfigurationsbeispiel verteilt sind.
[10] 10 ist ein Flussdiagramm, das einen Anzeigewartelisten-Erzeugungsprozess veranschaulicht.
[11] 11 ist ein Flussdiagramm, das einen Anzeigeprozess für einen Sprachtext darstellt.
[12] 12 ist ein Diagramm, das ein Beispiel des Bestimmens veranschaulicht, ob ein Text bereits gelesen wurde.
[13] 13 ist ein Diagramm, das ein spezifisches Beispiel eines Textmengenreduzierungsprozesses veranschaulicht.
[14] 14 ist ein Diagramm, das ein spezifisches Beispiel eines Textmengenreduzierungsprozesses veranschaulicht.
[15] 15 ist ein Diagramm, das ein spezifisches Beispiel eines Textmengenreduzierungsprozesses veranschaulicht.
[16] 16 ist ein Diagramm, das ein spezifisches Beispiel eines Textmengenreduzierungsprozesses veranschaulicht.
[17] 17 ist ein Diagramm, das ein spezifisches Beispiel eines Textmengenreduzierungsprozesses veranschaulicht.
[18] 18 ist ein Diagramm, das ein spezifisches Beispiel eines Bearbeitungsprozesses (Löschen) veranschaulicht.
[19] 19 ist ein Diagramm, das ein spezifisches Beispiel eines Bearbeitungsprozesses (erneutes Sprechen) veranschaulicht.
[20] 20 ist ein Diagramm, das ein spezifisches Beispiel eines Bearbeitungsprozesses (Registrierung ausgeschlossener Wörter) veranschaulicht.
[21] 21 ist ein Diagramm, das ein spezifisches Beispiel eines Bearbeitungsprozesses (Worthinzufügung) veranschaulicht.
[22] 22 ist ein Diagramm, das ein Anwendungsbeispiel der Gesprächsunterstützungsvorrichtung veranschaulicht.
[23] 23 ist ein Diagramm, das ein Anwendungsbeispiel der Gesprächsunterstützungsvorrichtung veranschaulicht.
[24] 24 ist ein Diagramm, das ein Anwendungsbeispiel der Gesprächsunterstützungsvorrichtung veranschaulicht.
[25] 25 ist ein Diagramm, das ein Beispiel des Gebens einer Rückmeldung an eine sprechende Person veranschaulicht.
[26] 26 ist ein Blockdiagramm, das ein Konfigurationsbeispiel eines Computers veranschaulicht.

Durchführungsweise(n) der Erfindung
Im Folgenden werden die besten Modi (nachstehend als Ausführungsformen bezeichnet) zum Ausführen der vorliegenden Technologie unter Bezugnahme auf die Zeichnungen ausführlich beschrieben.
<Erstes Konfigurationsbeispiel einer Gesprächsunterstützungsvorrichtung gemäß einer Ausführungsform der vorliegenden Technologie>
1 veranschaulicht ein erstes Konfigurationsbeispiel einer Gesprächsunterstützungsvorrichtung gemäß einer Ausführungsform der vorliegenden Technologie. 1 veranschaulicht einen Fall, in dem eine Gesprächsunterstützungsvorrichtung 10 als ein einzelnes Gehäuse ausgebildet ist.
Die Gesprächsunterstützungsvorrichtung 10 ist eine Vorrichtung zum Unterstützen der Gesprächsführung zwischen einer Person (nachstehend als Benutzer A bezeichnet), die keine Hörschwierigkeiten hat, und einer Person (nachstehend als Benutzer B bezeichnet), die Hörschwierigkeiten hat. Zu beachten ist, dass angenommen werden kann, dass ein erster Benutzer gemäß einem Aspekt der vorliegenden Technologie dem Benutzer A gemäß diesem Konfigurationsbeispiel entspricht, und es kann angenommen werden, dass ein zweiter Benutzer gemäß einem Aspekt der vorliegenden Technologie dem Benutzer 2 gemäß diesem Konfigurationsbeispiel entspricht. Zu beachten ist, dass es ausreichend ist, wenn der erste Benutzer gemäß einem Aspekt der vorliegenden Technologie ein Benutzer ist, der Schallsignale eingibt. Mit anderen Worten ist der erste Benutzer (der Benutzer, der Schallsignale eingibt) nicht auf ein einzelnes Subjekt (Benutzer) beschränkt, und mehrere Subjekte (Benutzer) können der erste Benutzer sein. In ähnlicher Weise ist es ausreichend, wenn der zweite Benutzer gemäß einem Aspekt der vorliegenden Technologie ein Benutzer ist, der einen angezeigten Sprachtext sieht. Der zweite Benutzer ist nicht auf ein einzelnes Subjekt beschränkt, und eine Vielzahl von Subjekten kann der zweite Benutzer sein.
Insbesondere wird eine Sprachäußerung des Benutzers A durch einen Spracherkennungsprozess in einen Text (nachfolgend auch als Sprachtext bezeichnet) umgewandelt, und der Sprachtext wird auf einer Anzeigeeinheit 43 für den Benutzer B angezeigt. Durch Lesen der Anzeige ist es für den Benutzer B möglich, den der Sprachäußerung (Schallinformation) des Benutzers A entsprechenden Sprachtext (Zeicheninformation) zu verstehen.
Der auf der Anzeigeeinheit 43 angezeigte Sprachtext wird solange angezeigt, bis der Benutzer B das Lesen beendet hat oder bis eine vorbestimmte Zeitdauer abgelaufen ist.
Beispielsweise wird ein Bild des Benutzers B unter Bildern, die von einer Bildaufnahmeeinheit 41 erfasst werden, oder eine Sprachäußerung des Benutzers B, die von einer Schallerfassungseinheit 42 erfasst wird, zum Bestimmen verwendet, ob der Benutzer B das Lesen des angezeigten Sprachtextes beendet hat oder nicht.
Es ist zu beachten, dass eine Anzeigeeinheit 22 (siehe 2) für den Benutzer A auf der Rückseite der Anzeigeeinheit 43 für den Benutzer B installiert ist. Die Anzeigeeinheit 22 führt eine Anzeige auf ähnliche Weise wie die Anzeigeeinheit 43 durch. Anders ausgedrückt: Die Anzeigeeinheit 22 zeigt den der Sprachäußerung des Benutzers A entsprechenden Sprachtext an. Dies ermöglicht dem Benutzer A zu prüfen, ob die Sprachäußerung des Benutzers A korrekt erkannt wird oder nicht.
<Konfigurationsbeispiel einer Gesprächsunterstützungsvorrichtung gemäß einer Ausführungsform der vorliegenden Technologie>
2 ist ein Blockdiagramm, das ein internes Konfigurationsbeispiel der Gesprächsunterstützungsvorrichtung gemäß einer Ausführungsform der vorliegenden Technologie veranschaulicht.
Die Gesprächsunterstützungsvorrichtung 10 beinhaltet eine Schallerfassungseinheit 21, die Anzeigeeinheit 22, eine Operationseingabeeinheit 23, eine Informationsverarbeitungseinheit 30, die Bildaufnahmeeinheit 41, die Schallerfassungseinheit 42, die Anzeigeeinheit 43 und eine Operationseingabeeinheit 44.
Die Schallerfassungseinheit 21, die Anzeigeeinheit 22 und die Operationseingabeeinheit 23 sind hauptsächlich für den Benutzer A installiert.
Die Schallerfassungseinheit 21 erfasst die Stimme (Sprachäußerung) des Benutzers A und stellt für die Informationsverarbeitungseinheit 30 ein Sprachsignal bereit, das der Stimme (Sprachäußerung) des Benutzers A entspricht. Die Anzeigeeinheit 22 zeigt einen Bildschirm an, der einem von der Informationsverarbeitungseinheit 30 bereitgestellten Bildsignal entspricht (zum Beispiel ein Bildsignal zum Anzeigen eines der Sprachäußerung des Benutzers A entsprechenden Sprachtextes auf dem Bildschirm). Die Operationseingabeeinheit 23 empfängt verschiedene Arten von Betätigungen von dem Benutzer A und benachrichtigt die Informationsverarbeitungseinheit 30 über Betätigungssignale, die den verschiedenen Arten von Operationen entsprechen.
Die Informationsverarbeitungseinheit 30 wandelt das von der Schallerfassungseinheit 21 bereitgestellte Sprachsignal durch einen Spracherkennungsprozess in einen Sprachtext um. Zusätzlich stellt die Informationsverarbeitungseinheit 30 für die Anzeigeeinheit 43 ein Bildsignal zum Anzeigen des Sprachtextes auf dem Bildschirm bereit. Zu beachten ist, dass die Informationsverarbeitungseinheit 30 nachfolgend ausführlich beschrieben wird.
Die Bildaufnahmeeinheit 41, die Schallerfassungseinheit 42, die Anzeigeeinheit 43 und die Operationseingabeeinheit 44 sind hauptsächlich für den Benutzer B installiert.
Die Bildaufnahmeeinheit 41 nimmt ein Bild des Benutzers B und dergleichen auf und stellt der Informationsverarbeitungseinheit 30 ein Bewegtbildsignal bereit, das als Ergebnis der Bildaufnahme erhalten wird. Die Schallerfassungseinheit 42 erfasst die Stimme (Sprachäußerung) des Benutzers B und stellt für die Informationsverarbeitungseinheit 30 ein Sprachsignal bereit, das der Stimme (Sprachäußerung) des Benutzers B entspricht. Die Anzeigeeinheit 43 zeigt einen Bildschirm an, der dem von der Informationsverarbeitungseinheit 30 bereitgestellten Bildsignal zum Anzeigen des der Sprachäußerung des Benutzers A entsprechenden Sprachtextes auf dem Bildschirm entspricht. Die Operationseingabeeinheit 44 empfängt verschiedene Arten von Operationen von dem Benutzer B und benachrichtigt die Informationsverarbeitungseinheit 30 über Betätigungssignale, die den verschiedenen Arten von Operationen entsprechen.
<Konfigurationsbeispiel für funktionale Blöcke, die in der Informationsverarbeitungseinheit 30 enthalten sind>
3 veranschaulicht ein Konfigurationsbeispiel von funktionalen Blöcken, die in der Informationsverarbeitungseinheit 30 enthalten sind.
Die Informationsverarbeitungseinheit 30 enthält eine Spracherkennungseinheit 31, eine Bilderkennungseinheit 32, eine Falscherkennungslerneinheit 33, eine Analyseeinheit 35, eine Bearbeitungseinheit 36, eine Worthinzufügungslerneinheit 37, eine Anzeigewarteliste-Halteeinheit 38, eine Anzeigesteuereinheit 39 und eine Rückmeldungseinheit 40.
Die Spracherkennungseinheit 31 erzeugt einen Sprachtext durch Umwandeln des Sprachsignals, das der Sprachäußerung des Benutzers A entspricht, die von der Schallerfassungseinheit 21 bereitgestellt wird, in den Sprachtext durch den Spracherkennungsprozess und stellt den Sprachtext für die Analyseeinheit 35 bereit.
Des Weiteren wandelt die Spracherkennungseinheit 31 das Sprachsignal, das der von der Schallerfassungseinheit 42 bereitgestellten Sprachäußerung des Benutzers B entspricht, durch den Spracherkennungsprozess in einen Sprachtext um, erkennt ein bestimmtes Schlüsselwort (wie etwa „ja“, „klar“, „OK“, „verstanden“ oder „weiter“, das im Voraus registriert wird) in dem Sprachtext und stellt dann das Erkennungsergebnis für die Anzeigesteuereinheit 39 bereit. Das bestimmte Schlüsselwort gibt an, dass der Benutzer B den Sprachtext des Benutzers A bereits gelesen hat.
Die Bilderkennungseinheit 32 erkennt eine bestimmte Aktion (wie etwa ein Nicken oder eine Lenkung der Blickrichtung weg vom Bildschirm, beispielsweise nach einem Blick auf den Bildschirm), die angibt, dass der Benutzer B den Sprachtext bereits auf der Grundlage des von der Bildaufnahmeeinheit 41 bereitgestellten Bewegtbildsignals gelesen hat, und stellt dann das Erkennungsergebnis für die Anzeigesteuereinheit 39 bereit. Das Weitern misst die Bilderkennungseinheit 32 eine Entfernung zwischen dem Benutzer B und der Anzeigeeinheit 43 auf der Grundlage des von der Bildaufnahmeeinheit 41 bereitgestellten Bewegtbildsignals und benachrichtigt die Anzeigesteuereinheit 39 über ein Messergebnis. Der Abstand zwischen dem Benutzer B und der Anzeigeeinheit 43 wird zum Einstellen der Zeichengröße des auf der Anzeigeeinheit 43 anzuzeigenden Sprachtextes verwendet. Beispielsweise wird eine größere Zeichengröße eingestellt, wenn der Abstand zwischen dem Benutzer B und der Anzeigeeinheit 43 größer wird.
Zu beachten ist, dass im Fall der Verwendung einer tragbaren Ausrüstung, wie etwa einer am Kopf angebrachten Anzeigevorrichtung (die nachfolgend beschrieben wird), eine Blickrichtung auf der Grundlage einer Richtung der tragbaren Ausrüstung bestimmt werden kann, anders ausgedrückt, der Ausrichtung des Kopfes oder der Ausrichtung des Körpers des Benutzers B. Die Richtung der tragbaren Ausrüstung kann auf der Grundlage von Positionsinformationen bestimmt werden, die von einer Kamera, einem Beschleunigungssensor, einem Kreiselsensor oder dergleichen erhalten werden, die in der tragbaren Ausrüstung installiert sind. Außerdem ist es auch möglich, Purkinje-Bilder auf einem Augapfel und der Pupillenmitte des Benutzers B unter Verwendung einer Infrarotkamera und einer Infrarot-LED zu bestimmen und auf deren Grundlage eine Blickrichtung des Benutzers B zu bestimmen.
Die Falscherkennungslerneinheit 33 behandelt die Bearbeitungsoperation (wie etwa eine Löschanweisungsoperation, eine Operation für die Anweisung zum erneuten Sprechen oder eine Operation für die Anweisung zur Registrierung ausgeschlossener Wörter), die von dem Benutzer A oder dem Benutzer B in Bezug auf den der Sprachäußerung des Benutzers A entsprechenden Sprachtext eingegeben wird, der als Ergebnis des Spracherkennungsprozesses erhalten wird, und registriert dann ein falsch erkanntes Wort, das in dem Sprachtext enthalten ist, auf einer Falscherkennungsliste 34. Des Weiteren fordert in dem Fall, in dem ein Wort, das in der Falscherkennungsliste 34 registriert ist, in dem der Sprachäußerung des Benutzers A entsprechenden Sprachtext enthalten ist, der als Ergebnis des Spracherkennungsprozesses erhalten wird, die Falscherkennungslerneinheit 33 ein Erkennungsergebnis (den zweiten Kandidaten oder dergleichen eines Erkennungsergebnisses), der nicht mit dem falsch erkannten Wort (dem ersten Kandidaten) übereinstimmt, von der Spracherkennungseinheit 31 an.
Die Analyseeinheit 35 führt eine Analyse durch, sodass der von der Spracherkennungseinheit 31 erzeugte Sprachtext, der der Sprachäußerung des Benutzers A entspricht, in Wortarten zerlegt wird, oder beispielsweise ein Schlüsselwort extrahiert wird.
Die Bearbeitungseinheit 36 führt einen Bearbeitungsprozess, um an geeigneter Stelle einen Zeilenumbruch oder einen Seitenumbruch auf der Grundlage eines Ergebnisses der von der Analyseeinheit 35 vorgenommenen Analyse hinzuzufügen, oder einen Textmengenreduzierungsprozess durch, um einen Partikel oder dergleichen festzulegen, der die Bedeutung des Sprachtextes nicht verändert, selbst wenn er gelöscht wird. Anschließend stellt die Bearbeitungseinheit 36 den bearbeiteten Sprachtext für die Anzeigelistenlisten-Halteeinheit 38 bereit. Es ist zu beachten, dass während des Bearbeitungsprozesses angenommen werden kann, dass mindestens einer von einem Zeilenumbruch, Seitenumbruch oder Textmengenreduzierungsprozesses durchgeführt wird, und es ist auch möglich, mindestens einen von dem Zeilenumbruch, Seitenumbruch oder Textmengenreduzierungsprozess wegzulassen.
Des Weiteren ist die Bearbeitungseinheit 35 auch fähig, eine Vielzahl einander zugeordnete Sprachtexte zu einem Gesprächsthema zu kombinieren und das Gesprächsthema für die Anzeigewartelisten-Halteeinheit 38 bereitzustellen. In diesem Fall ist es auch möglich, ein Symbol anzuzeigen, das einem Gesprächsthema entspricht, das darauf wartet, angezeigt zu werden, während ein aktuelles Gesprächsthema angezeigt wird. Ein Anzeigeobjekt, das das Gesprächsthema darstellt, das darauf wartet, angezeigt zu werden, ist nicht auf das Symbol beschränkt. Geeignete Einstellungen können konfiguriert werden. Gemäß solchen Konfigurationen kann auf einfache Weise erkannt werden, wie weit der Benutzer B einen Sprachtext eines Gesprächspartners gelesen hat. Darüber hinaus ist es gemäß solchen Konfigurationen auch möglich, dass der Benutzer B die Reduzierung der eingegebene Textmenge des Benutzers A auf der Grundlage des Vorrückens des Sprachtextes anregt.
Des Weiteren steuert die Bearbeitungseinheit 36 einen Prozess des Löschens eines Satzes in einem Sprachtext, einen Prozess des Einfügens eines Sprachtextes, der erneut gesagten Wörtern entspricht, oder einen Prozess des Registrierens eines ausgeschlossenen Worts auf der Grundlage einer von dem Benutzer A durch die Operationseingabeeinheit 23 eingegebenen Operation in Bezug auf einen auf der Anzeigeeinheit 22 angezeigten Sprachtext, wobei der Sprachtext einer Sprachäußerung des Benutzers A entspricht. Des Weiteren steuert die Bearbeitungseinheit 36 einen Prozess zum Hinzufügen von Satzzeichen, wie etwa „?“ (Fragezeichen), zu dem auf der Anzeigeeinheit 22 angezeigten Sprachtext, der der Sprachäußerung des Benutzers A entspricht, auf der Grundlage einer Worthinzufügungsoperation, die von dem Benutzer A durch die Operationseingabeeinheit 23 in Bezug auf den Sprachtext eingegeben wird (insbesondere das Hinzufügen eines Zeichens, wie etwa „?“). Zu beachten ist, dass es auch möglich ist, Emoji, ein Emoticon, ein anderes Zeichen als „?“ oder dergleichen hinzuzufügen.
Zu beachten ist, dass die Bearbeitungseinheit 36 den Bearbeitungsprozess an dem auf der Anzeigeeinheit 43 angezeigten Sprachtext, der der Sprachäußerung des Benutzers A entspricht, auch auf der Grundlage einer Bearbeitungsoperation oder einer Worthinzufügungsoperation, die von dem Benutzer B durch die Operationseingabeeinheit 44 eingegeben wird, durchführen kann. Anders ausgedrückt: Sowohl der Benutzer A als auch der Benutzer B sind in der Lage, eine Bearbeitungsoperation und eine Worthinzufügungsoperation an einem angezeigten Sprachtext, der einer Sprachäußerung des Benutzers A entspricht, durchzuführen.
Die Worthinzufügungslerneinheit 37 lernt die von dem Benutzer A oder dem Benutzer B eingegebene Worthinzufügungsoperation und steuert die Bearbeitungseinheit 36, sodass die Bearbeitungseinheit 36 ein ähnliches Schriftzeichen oder dergleichen zu einem ähnlichen Sprachtext auf der Grundlage des Lernergebnisses hinzufügt, ohne dass eine Worthinzufügungsoperation von dem Benutzer A oder dem Benutzer B durchgeführt wird.
Beispielsweise wird in dem Fall, in dem eine Worthinzufügungsoperation mit der Anweisung, das Zeichen „?“ zu dem Sprachtext „hast du das Medikament eingenommen“, der einer Sprachäußerung des Benutzers A entspricht, hinzuzufügen, gelernt wird, die Bearbeitungseinheit 36 so gesteuert, dass das Zeichen „?“ dem Sprachtext „hast du das Medikament eingenommen“ hinzugefügt wird, um einen bearbeiteten Sprachtext „hast du das Medikament eingenommen?“ zu erhalten, ohne dass eine Worthinzufügungsoperation durch den Benutzer A oder den Benutzer B durchgeführt wird.
Die Anzeigewartelisten-Halteeinheit 38 registriert die dem Bearbeitungsprozess unterzogenen Sprachtexte auf einer Anzeigewarteliste in chronologischer Reihenfolge, oder anders ausgedrückt, in der Reihenfolge, in der sie vom Benutzer A gesagt werden. Der Bearbeitungsprozess umfasst mindestens einen von dem Zeilenumbruch, dem Seitenumbruch oder dem Textmengenreduzierungsprozess (manchmal wird der Textmengenreduzierungsprozess nicht abhängig von der Anzahl der Zeichen durchgeführt). Ein auf der Anzeigewarteliste registrierter Sprachtext wird in dem Fall von der Anzeigewarteliste gelöscht, wenn der Sprachtext von der Anzeigesteuereinheit 39 ausgelesen wird.
Die Anzeigesteuereinheit 39 liest Sprachtexte in chronologischer Reihenfolge aus der Anzeigewarteliste aus, erzeugt ein Bildsignal zum Anzeigen der gelesenen Sprachtexte auf den Bildschirmen und stellt das Bildsignal für die Anzeigeeinheit 22 und die Anzeigeeinheit 43 bereit. Des Weiteren steuert die Anzeigesteuereinheit 39 die angezeigte Menge der angezeigten Texte auf der Anzeigeeinheit 22 und der Anzeigeeinheit 43 auf der Grundlage der angezeigten Menge der aktuell angezeigten Sprachtexte auf der Anzeigeeinheit 22 und der Anzeigeeinheit 43, ein Erkennungsergebnis eines bestimmten Schlüsselworts, das darstellt, dass der Benutzer B die Sprachtexte bereits gelesen hat, ein Erkennungsergebnis einer bestimmten Aktion, die darstellt, dass der Benutzer B die Sprachtexte bereits gelesen hat, oder dergleichen. Das Erkennungsergebnis des bestimmten Schlüsselworts wird von der Spracherkennungseinheit 31 bereitgestellt, und das Erkennungsergebnis der bestimmten Aktion wird von der Bilderkennungseinheit 32 bereitgestellt. Des Weiteren legt die Anzeigesteuereinheit 39 eine Zeichengröße zum Anzeigen der Sprachtexte in Übereinstimmung mit einer Entfernung zwischen dem Benutzer B und der Anzeigeeinheit 43 fest.
Durch Anzeigen von Zeichen oder eine Tonausgabe steuert die Rückmeldungssteuereinheit 40 eine Rückmeldung zum Anweisen des Benutzers A, die Sprechgeschwindigkeit zu beschleunigen (oder zu verlangsamen), zum Anweisen des Benutzers A, eine Sprachäußerung zu unterbrechen, oder zum Auffordern des Benutzers A, mit dem Sprechen fortzufahren, und zwar in Übereinstimmung mit der Sprechgeschwindigkeit des Benutzers A, der Länge der Sprachäußerung des Benutzers A, der Spracherkennungszeichenmenge pro Zeiteinheit, der Menge der auf der Anzeigeeinheit 43 angezeigten Sprachtexte, der Menge der auf der Anzeigewarteliste registrierten Sprachtexte, der Information, die angibt, ob der Benutzer B die Sprachtexte bereits gelesen hat oder nicht, der Lesegeschwindigkeit des Benutzers B oder dergleichen. Hier ist der Benutzer A eine Person, die spricht. Des Weiteren steuert die Rückmeldungssteuereinheit 40 eine Rückmeldung zum Auffordern des Benutzers B, einen Sprachtext zu lesen, indem Zeichen oder dergleichen in Übereinstimmung mit der auf der Anzeigeeinheit 43 angezeigten Menge von Sprachtexten, der auf der Anzeigewarteliste registrierten Menge von Sprachtexten, der Information, die angibt, ob der Benutzer B die Sprachtexte bereits gelesen hat oder nicht, der Lesegeschwindigkeit des Benutzers B oder dergleichen angezeigt werden.
Es ist zu beachten, dass es nicht notwendig ist, die vorstehend beschriebenen funktionalen Blöcke der Informationsverarbeitungseinheit 30 in einem einzigen Gehäuse unterzubringen. Die vorstehend beschriebenen funktionalen Blöcke können auf mehrere Gehäuse verteilt sein. Des Weiteren können ein Teil oder alle der funktionalen Blöcke in dem Server im Internet installiert sein, anders ausgedrückt in einem Cloud-Netzwerk.
<Zweites Konfigurationsbeispiel einer Gesprächsunterstützungsvorrichtung gemäß einer Ausführungsform der vorliegenden Technologie>
4 ist ein zweites Konfigurationsbeispiel der Gesprächsunterstützungsvorrichtung gemäß einer Ausführungsform der vorliegenden Technologie. Gemäß dem zweiten Konfigurationsbeispiel ist die Gesprächsunterstützungsvorrichtung 10 als ein System konfiguriert, das eine Vielzahl von unterschiedlichen elektronischen Vorrichtungen enthält. In diesem Fall kann die Vielzahl von elektronischen Vorrichtungen, die in der Gesprächsunterstützungsvorrichtung 10 enthalten sind, auf drahtgebundene Weise verbunden sein oder durch eine vorbestimmte drahtlose Kommunikation (wie etwa beispielsweise Bluetooth (eingetragene Marke), Wi-Fi (eingetragene Marke)) verbunden sein.
In dem zweiten Konfigurationsbeispiel enthält die Gesprächsunterstützungsvorrichtung 10 ein Smartphone 50, das der Benutzer A verwendet, und einen Tablet-PC (nachstehend als das Tablet bezeichnet) 60, das der Benutzer B verwendet.
5 veranschaulicht einen Zustand, in dem die strukturellen Elemente der in 2 veranschaulichten Gesprächsunterstützungsvorrichtung 10 an das Smartphone 50 und den Tablet-PC 60 verteilt werden.
Anders ausgedrückt: Unter den strukturellen Elementen der Gesprächsunterstützungsvorrichtung 10 werden die Schallerfassungseinheit 21, die Anzeigeeinheit 22, die Operationseingabeeinheit 23 und die Informationsverarbeitungseinheit 30 durch das Smartphone 50 implementiert. In diesem Fall entsprechen ein Mikrofon, eine Anzeigevorrichtung und ein Berührungsbildschirm oder dergleichen, die in dem Smartphone 50 enthalten sind, jeweils der Schallerfassungseinheit 21 und der Operationseingabeeinheit 23. Des Weiteren entspricht ein von dem Smartphone 50 ausgeführtes Anwendungsprogramm der Informationsverarbeitungseinheit 30.
Des Weiteren werden unter den strukturellen Elementen der Gesprächsunterstützungsvorrichtung 10 die Bildaufnahmeeinheit 41, die Schallerfassungseinheit 42, die Anzeigeeinheit 43 und die Operationseingabeeinheit 44 durch das Tablet 60 implementiert. In diesem Fall entsprechen eine Kamera, ein Mikrofon, eine Anzeigevorrichtung und ein Berührungsbildschirm oder dergleichen, die in dem Tablet 60 enthalten sind, jeweils der Bildaufnahmeeinheit 41, der Schallerfassungseinheit 42, der Anzeigeeinheit 43 und der Operationseingabeeinheit 44.
Zu beachten ist, dass im Fall von 5 die Spracherkennungseinheit 31 auf einem Server 72 installiert ist, der fähig ist, über das Internet 71 unter den funktionalen Blöcken der Informationsverarbeitungseinheit 30 eine Verbindung herzustellen.
<Drittes Konfigurationsbeispiel einer Gesprächsunterstützungsvorrichtung gemäß einer Ausführungsform der vorliegenden Technologie>
6 ist ein drittes Konfigurationsbeispiel der Gesprächsunterstützungsvorrichtung gemäß einer Ausführungsform der vorliegenden Technologie. Gemäß dem dritten Konfigurationsbeispiel ist die Gesprächsunterstützungsvorrichtung 10 als ein System konfiguriert, das eine Vielzahl von unterschiedlichen elektronischen Vorrichtungen enthält.
Anders ausgedrückt: Das dritte Konfigurationsbeispiel beinhaltet das Smartphone 50, einen Projektor 80 und eine Kamera 110. Das Smartphone 50 wird von dem Benutzer A verwendet. Der Projektor 80 projiziert ein Video zum Anzeigen von Sprachtexten an einer Position, die der Benutzer B sieht, wenn der Benutzer B auf einem Bett liegt, wie etwa eine Wand oder einer Decke eines Raums. Die Kamera 110 ist an der Decke oder dergleichen installiert.
7 veranschaulicht einen Zustand, in dem die strukturellen Elemente der in 2 veranschaulichten Gesprächsunterstützungsvorrichtung 10 an das Smartphone 50, den Projektor 80 und die Kamera 110 verteilt werden.
Anders ausgedrückt: Unter den strukturellen Elementen der Gesprächsunterstützungsvorrichtung 10 werden die Schallerfassungseinheit 21, die Anzeigeeinheit 22, die Operationseingabeeinheit 23 und die Informationsverarbeitungseinheit 30 durch das Smartphone 50 implementiert.
Des Weiteren werden unter den strukturellen Elementen der Gesprächsunterstützungsvorrichtung 10 die Bildaufnahmeeinheit 41 und die Schallerfassungseinheit 42 durch die Kamera 110 implementiert. In diesem Fall entsprechen ein Bildsensor und ein Mikrofon der Kamera 110 jeweils der Bildaufnahmeeinheit 41 und der Schallerfassungseinheit 42.
Unter den strukturellen Elementen der Gesprächsunterstützungsvorrichtung 10 werden die Anzeigeeinheit 43 und die Operationseingabeeinheit 44 durch den Projektor 80 implementiert. In diesem Fall entsprechen eine Projektoreinheit und eine Fernbedienung des Projektors 80 jeweils der Anzeigeeinheit 43 und der Operationseingabeeinheit 44.
Im Fall von 7 ist auch die Spracherkennungseinheit 31 auf dem Server 72 installiert, der fähig ist, über das Internet 71 unter den funktionalen Blöcken der Informationsverarbeitungseinheit 30 eine Verbindung herzustellen.
<Viertes Konfigurationsbeispiel einer Gesprächsunterstützungsvorrichtung gemäß einer Ausführungsform der vorliegenden Technologie>
8 ist ein viertes Konfigurationsbeispiel der Gesprächsunterstützungsvorrichtung gemäß einer Ausführungsform der vorliegenden Technologie. Gemäß dem vierten Konfigurationsbeispiel ist die Gesprächsunterstützungsvorrichtung 10 als ein System konfiguriert, das eine Vielzahl von unterschiedlichen elektronischen Vorrichtungen enthält.
Anders ausgedrückt: Das vierte Konfigurationsbeispiel beinhaltet ein Umhängemikrofon 100, einen Fernsehempfänger (nachstehend als Fernsehgerät bezeichnet) 90 und eine Kamera 110. Das Umhängemikrofon 100 wird von dem Benutzer A verwendet. Das Fernsehgerät 90 ist an einer Position angeordnet, die vom Benutzer A und vom Benutzer B gesehen wird. Die Kamera 110 ist auf dem Fernsehgerät 90 angeordnet.
9 veranschaulicht einen Zustand, in dem die strukturellen Elemente der in 2 veranschaulichten Gesprächsunterstützungsvorrichtung 10 an das Umhängemikrofon 100, das Fernsehgerät 90 und die Kamera 110 verteilt werden.
Anders ausgedrückt: Unter den strukturellen Elementen der Gesprächsunterstützungsvorrichtung 10 wird die Schallerfassungseinheit 21 durch das Umhängemikrofon 100 implementiert. Zu beachten ist, dass das Umhängemikrofon 100 einen Lautsprecher enthalten kann, der zusätzlich zu der Schallerfassungseinheit 21 Schall ausgibt.
Unter den strukturellen Elementen der Gesprächsunterstützungsvorrichtung 10 werden die Bildaufnahmeeinheit 41 und die Schallerfassungseinheit 42 durch die Kamera 110 implementiert.
Unter den strukturellen Elementen der Gesprächsunterstützungsvorrichtung 10 werden die Anzeigeeinheit 43 und die Operationseingabeeinheit 44 durch das Fernsehgerät 90 implementiert. In diesem Fall entsprechen eine Anzeigevorrichtung und eine Fernbedienung des Fernsehgeräts 90 jeweils der Anzeigeeinheit 43 und der Operationseingabeeinheit 44. Zu beachten ist, dass die Anzeigevorrichtung und die Fernbedienung des Fernsehgeräts 90 auch als Anzeigeeinheit 22 und Operationseingabeeinheit 23 für den Benutzer A dienen.
Im Fall von 9 ist auch die Spracherkennungseinheit 31 auf dem Server 72 installiert, der fähig ist, über das Internet 71 unter den funktionalen Blöcken der Informationsverarbeitungseinheit 30 eine Verbindung herzustellen.
Wie in dem ersten bis vierten Konfigurationsbeispiel beschrieben, kann die Gesprächsunterstützungsvorrichtung 10 durch eine einzige elektronische Vorrichtung implementiert sein oder kann durch ein System implementiert sein, in dem eine Vielzahl von elektronischen Vorrichtungen kombiniert werden. Es ist zu beachten, dass es möglich ist, das vorstehend beschriebene erste bis vierte Konfigurationsbeispiel auf geeignete Weise zu kombinieren.
Da die elektronische Vorrichtung die Gesprächsunterstützungsvorrichtung 10 als System bildet, ist es des Weiteren auch möglich, tragbare Vorrichtungen, wie etwa ein armbanduhrähnliches Endgerät, oder eine am Kopf angebrachte Anzeigevorrichtung, einen Monitor für einen Personal Computer (PC) oder dergleichen zusätzlich zu den vorstehend beschriebenen Beispielen zu verwenden.
<Betrieb der Gesprächsunterstützungsvorrichtung 10>
Im Folgenden wird der Betrieb der Gesprächsunterstützungsvorrichtung 10 beschrieben.
10 ist ein Flussdiagramm, das einen Anzeigewartelisten-Erzeugungsprozess veranschaulicht, der von der Gesprächsunterstützungsvorrichtung 10 durchgeführt wird. Der Anzeigewartelisten-Erzeugungsprozess wird wiederholt ausgeführt, nachdem die Gesprächsunterstützungsvorrichtung 10 aktiviert ist, bis die Stromversorgung abgeschaltet wird.
In Schritt S1 erfasst die Schallerfassungseinheit 21 die Stimme des Benutzers A, wenn der Benutzer A spricht. Die Schallerfassungseinheit 21 wandelt die Stimme des Benutzers A in ein Sprachsignal um und stellt das Sprachsignal für die Informationsverarbeitungseinheit 30 bereit. In Schritt S2 führt die Spracherkennungseinheit 31 einen Spracherkennungsprozess durch, und die Informationsverarbeitungseinheit 30 wandelt das der Sprachäußerung des Benutzers A entsprechende Sprachsignal in einen Sprachtext um.
In Schritt S3 analysiert die Analyseeinheit 35 den der Sprachäußerung von Benutzer A entsprechenden Sprachtext, der von der Spracherkennungseinheit 31 erzeugt wurde. In Schritt S4 führt die Bearbeitungseinheit 36 einen Bearbeitungsprozess durch, der mindestens einen von einem Zeilenumbruch, Seitenumbruch oder Textmengenreduzierungsprozesses in dem der Sprachäußerung des Benutzers A entsprechenden Sprachtext auf der Grundlage des Analyseergebnisses enthält und stellt der Anzeigewarteliste-Halteeinheit 38 den dem Bearbeitungsprozess unterzogenen Sprachtext bereit.
In Schritt S5 hält die Anzeigewarteliste-Halteeinheit 38 Sprachtexte, die von der Bearbeitungseinheit 36 bereitgestellt wurden und die dem Bearbeitungsprozess unterzogen wurden, in chronologischer Reihenfolge vor. Als nächstes kehrt der Prozess zu Schritt S1 zurück und wiederholt die nachfolgenden Schritte.
11 ist ein Flussdiagramm, das einen Sprachtext-Anzeigeprozess veranschaulicht, der von der Gesprächsunterstützungsvorrichtung 10 durchgeführt wird. Der Sprachtext-Anzeigeprozess wird wiederholt parallel zu dem vorstehend beschriebenen Anzeigewartelisten-Erzeugungsprozess ausgeführt, nachdem die Gesprächsunterstützungsvorrichtung 10 aktiviert ist, bis die Stromversorgung abgeschaltet wird.
In Schritt S11 bestimmt die Anzeigesteuereinheit 39, ob ein Sprachtext auf den Bildschirmen der Anzeigeeinheiten 22 und 43 aktuell angezeigt wird oder nicht. Der Prozess fährt in dem Fall, dass bestimmt wird, dass der Sprachtext angezeigt wird, bei Schritt S12 fort. In Schritt S12 bestimmt die Anzeigesteuereinheit 39, ob eine voreingestellte Mindestanzeigedauer seit Beginn der Anzeige des aktuell angezeigten Sprachtextes verstrichen ist oder nicht, und wartet, bis die Mindestanzeigedauer verstrichen ist. Der Prozess fährt in dem Fall, dass die Mindestanzeigedauer verstrichen ist, bei Schritt S13 fort.
In Schritt S13 bestimmt die Anzeigesteuereinheit 39 auf der Grundlage eines Erkennungsergebnisses des bestimmten Schlüsselworts, das darstellt, dass der Benutzer B den Sprachtext bereits gelesen hat, und eines Erkennungsergebnisses der bestimmten Aktion, die darstellt, dass der Benutzer B den Sprachtext bereits gelesen hat, ob erkannt wurde oder nicht, dass der Benutzer B den angezeigten Sprachtext bereits gelesen hat. Das Erkennungsergebnis des bestimmten Schlüsselworts wird von der Spracherkennungseinheit 31 bereitgestellt, und das Erkennungsergebnis der bestimmten Aktion wird von der Bilderkennungseinheit 32 bereitgestellt.
12 veranschaulicht ein Beispiel des Bestimmens, ob der Benutzer B den angezeigten Sprachtext in Schritt S13 bereits gelesen hat.
Beispielsweise wird, in dem Fall, dass ein bestimmtes Schlüsselwort wie „ja“ aus einem Spracherkennungsergebnis einer Sprachäußerung des Benutzers B erkannt wird, geschätzt, dass der Benutzer B den angezeigten Sprachtext verstanden hat, wenn das bestimmte Schlüsselwort erkannt wurde, und es wird bestimmt, dass erkannt wird, dass der Benutzer B den angezeigten Sprachtext bereits gelesen hat. Das bestimmte Schlüsselwort stellt dar, dass der Benutzer B den angezeigten Sprachtext bereits gelesen hat.
Alternativ wird beispielsweise in dem Fall, dass eine bestimmte Aktion, wie etwa ein Nicken, aus einem Bilderkennungsergebnis eines Bewegtbilds erkannt wird, das den Benutzer B aufnimmt, geschätzt, dass der Benutzer B den angezeigten Sprachtext verstanden hat, wenn die bestimmte Aktion eine vorbestimmte Anzahl von Malen (wie etwa zwei Mal) erkannt wurde, und es wird bestimmt, dass erkannt wird, dass der Benutzer B den angezeigten Sprachtext bereits gelesen hat. Die bestimmte Aktion stellt dar, dass der Benutzer B den angezeigten Sprachtext bereits gelesen hat.
Alternativ wird beispielsweise in dem Fall, in dem ein Zustand, in dem der Benutzer B auf einen Bildschirm (die Anzeigeeinheit 43) blickt und dann seinen Blick in eine Richtung weg von dem Bildschirms lenkt, aus einem Bilderkennungsergebnis eines Bewegtbilds erkannt wird, das den Benutzer B aufnimmt, geschätzt, dass der Benutzer B den angezeigten Sprachtext verstanden hat, wenn der Zustand eine vorbestimmte Zeitdauer andauert, und es wird bestimmt, dass erkannt wird, dass der Benutzer den angezeigten Sprachtext bereits gelesen hat.
Alternativ wird beispielsweise in dem Fall, in dem aus einem Spracherkennungsergebnis einer Sprachäußerung des Benutzers A erkannt wird, dass der Benutzer A eine neue Sprachäußerung von sich gibt, geschätzt, dass das Gespräch zwischen dem Benutzer A und dem Benutzer B fortgesetzt wird, wenn die neue Sprachäußerung erkannt wird, es wird auch geschätzt, dass der Benutzer B die Sprachäußerung verstanden hat, und es wird bestimmt, dass erkannt wird, dass der Benutzer B den Text bereits gelesen hat.
Es ist zu beachten, dass die Verfahren zum Erkennen, ob der Benutzer B den Text bereits gelesen hat, nicht auf die vorstehend beschriebenen Beispiele beschränkt sind. Beispielsweise ist es auch möglich, dass die Benutzer ein bestimmtes Schlüsselwort oder eine Aktion willkürlich hinzufügt, die darstellen, dass ein Benutzer einen Text bereits gelesen hat.
Unter erneuter Bezugnahme auf 12 fährt der Prozess in dem Fall bei Schritt S14 fort, falls nicht erkannt wird, dass der Benutzer B den Text bereits in Schritt S13 gelesen hat. In Schritt S14 bestimmt die Anzeigesteuereinheit 39, ob eine voreingestellte Höchstanzeigedauer seit Beginn der Anzeige des aktuell angezeigten Sprachtextes verstrichen ist oder nicht, und der Prozess kehrt zu Schritt S13 zurück, bis die Höchstanzeigedauer verstrichen ist. Anschließend werden Schritt S13 und Schritt S14 wiederholt. Im Folgenden fährt der Prozess in dem Fall bei Schritt S15 fort, wenn erkannt wird, dass der Benutzer B den Text bereits gelesen hat, oder in dem Fall, in dem die Höchstanzeigedauer verstrichen ist.
In Schritt S15 liest die Anzeigesteuereinheit 39 Sprachtexte in chronologischer Reihenfolge aus der Anzeigewarteliste aus, erzeugt ein Bildsignal zum Anzeigen der gelesenen Sprachtexte auf den Bildschirmen und stellt das Bildsignal für die Anzeigeeinheit 22 und die Anzeigeeinheit 43 bereit. Zu diesem Zeitpunkt werden in dem Fall, in dem die Bildschirme der Anzeigeeinheit 22 und der Anzeigeeinheit 43 bereits mit Sprachtexten bedeckt sind, die Bildschirme weitergescrollt, ein oben auf dem Bildschirm angezeigter Sprachtext verschwindet von dem Bildschirm und ein Sprachtext, der aus der Anzeigewarteliste neu ausgelesen wird, wird auf dem Bildschirm angezeigt.
Es ist zu beachten, dass in dem Fall, in dem in Schritt S11 bestimmt wird, dass aktuell kein Sprachtext auf den Bildschirmen der Anzeigeeinheiten 22 und 43 angezeigt wird, der Schritt S12 und der Schritt S14 übersprungen werden und der Prozess bei Schritt S15 fortfährt.
Im Folgenden kehrt der Prozess zu Schritt S11 zurück und die nachfolgenden Schritte werden wiederholt.
Wie vorstehend beschrieben, werden der Anzeigewartelisten-Erzeugungsprozess und der Sprachtext-Anzeigeprozess parallel zueinander ausgeführt. Dementsprechend wird dem Benutzer B eine Sprachäußerung des Benutzers A als ein Sprachtext bereitgestellt, und Sprachtexte werden nacheinander angezeigt, während der Benutzer B die Sprachtexte liest.
<Spezifisches Beispiel für einen Bearbeitungsprozess, der mindestens einen von einem Zeilenumbruch, Seitenumbruch oder Textmengenreduzierungsprozess enthält>
Im Folgenden wird ein spezifisches Beispiel eines Bearbeitungsprozesses beschrieben, der mindestens einen von einem Zeilenumbruch, Seitenumbruch oder Textmengenreduzierungsprozess enthält, der von der Bearbeitungseinheit 36 durchgeführt wird.
Beispielsweise veranschaulicht 13 einen Fall, in dem der Benutzer A und der Benutzer B ein Gespräch unter Verwendung der Gesprächsunterstützungsvorrichtung 10 führen. Der Benutzer A ist ein Grundschulkind und der Benutzer B ist die Mutter von Benutzer A. In FIG. In 13 wird angenommen, dass der Benutzer A in einem Atemzug ohne Unterbrechung sagt: „Gestern in der Schule wurde ich gebeten, 10 000 Yen für den Schulausflug mitzubringen.“
14 veranschaulicht ein Anzeigebeispiel der Anzeigeeinheit 43 in der in 13 veranschaulichten Situation. Zu beachten ist, dass ein Teil A von 14 einen Zustand veranschaulicht, in dem der Bearbeitungsprozess nicht durchgeführt wird, ein Teil B von 14 einen Zustand veranschaulicht, in dem ein Zeilenumbruch und ein Seitenumbruch während der Bearbeitungsprozesse hinzugefügt werden, und ein Teil C von 14 einen Zustand veranschaulicht, in dem der Zeilenumbruch-, Seitenumbruch- und Textmengenreduzierungsprozess allesamt durchgeführt werden.
In dem Fall, in dem der Benutzer A ohne Unterbrechung in einem Atemzug spricht, wie in 13 veranschaulicht, zeigt die Anzeigeeinheit 43 zunächst einen Sprachtext an, der keinem Bearbeitungsprozess unterzogen wurde, wie in dem Teil A von 14 veranschaulicht. In diesem Zustand werden Zeilenumbrüche und Seitenumbrüche unabhängig von der Bedeutung oder dem Kontext des Sprachtextes eingefügt. Daher ist es schwierig, den Sprachtext zu lesen. Des Weiteren wird der numerische Wert (10000 Yen im Fall von 13) aufgeteilt, und es besteht die Möglichkeit, dass der numerische Wert falsch verstanden wird.
Wenn der Benutzer B eine erste Operation (beispielsweise die Operation des Antippens des Bildschirms) auf der Anzeigevorrichtung in dem Teil A von 14 durchführt, werden die Zeilenumbrüche und der Seitenumbruch während des Bearbeitungsprozesses eingefügt. Daher werden, wie in dem Teil B von 14 veranschaulicht, die Zeilenumbrüche und der Seitenumbruch in Übereinstimmung mit der Bedeutung und dem Kontext des Sprachtextes eingefügt. Dementsprechend wird es einfacher, den Sprachtext zu lesen, und es wird erwartet, dass sich dadurch ein fälschliches Verstehen des numerischen Wertes oder dergleichen verhindert lässt.
Wenn der Benutzer B eine zweite Operation (wie etwa die Operation des zweimaligen Antippens des Bildschirms) auf der Anzeigevorrichtung des Teils B von 14 durchführt, wird zusätzlich der Textmengenreduzierungsprozess durchgeführt. Daher ist es, wie in dem Teil C von 14 veranschaulicht, möglich, die Textmenge des Sprachtextes zu reduzieren, ohne die Bedeutung oder den Kontext des Sprachtextes zu verändern. Dementsprechend wird zusätzlich zu den vorstehend beschriebenen Auswirkungen eine Auswirkung Verkürzung der Zeit erwartet, die der Benutzer B benötigt, um den Sprachtext zu lesen.
Es ist zu beachten, dass, wenn der Benutzer B eine dritte Operation (wie etwa eine Operation des Wischens des Bildschirms) auf der Anzeigevorrichtung des Teils C von 14 durchführt, ein auf dem Bildschirm angezeigter Sprachtext möglicherweise vom Bildschirm verschwinden kann.
Alternativ kann in dem Fall, in dem der Benutzer B die erste Operation an der Anzeigevorrichtung des Teils B von 14 durchführt, der Bildschirm zur Anzeige des Teils A von 14 zurückkehren. In ähnlicher Weise kann in dem Fall, in dem der Benutzer B die zweite Operation an der Anzeigevorrichtung des Teils C von 14 durchführt, der Bildschirm zur Anzeige des Teils B von 14 zurückkehren.
Alternativ kann der Teil B von 14 angezeigt werden, wenn der Benutzer B die erste Operation an der Anzeigevorrichtung des Teils A von 14 durchführt, der Teil C von 14 angezeigt werden, wenn der Benutzer B anschließend die erste Operation durchführt, und der angezeigte Sprachtext kann von dem Bildschirm verschwinden, wenn der Benutzer B anschließend die erste Operation durchführt. Im Folgenden werden der Teil C von 14, der Teil B von 14 und der Teil A von 14 abwechselnd jedes Mal angezeigt, wenn der Benutzer B die erste Operation erneut durchführt.
Es ist zu beachten, dass in der vorstehenden Beschreibung der Bearbeitungsprozess an dem angezeigten Sprachtext in Übereinstimmung mit einer von dem Benutzer B durchgeführten Operation durchgeführt wird. Es ist jedoch auch möglich, den Bearbeitungsprozess an dem angezeigten Sprachtext in Übereinstimmung mit einer von dem Benutzer A durchgeführten Operation durchzuführen. Des Weiteren können die erste Operation, die zweite Operation oder die dritte Operation gemäß dem Aspekt der vorliegenden Technologie als die vorbestimmte Operation betrachtet werden.
<Ein anderes spezifisches Beispiel für einen Bearbeitungsprozess einschließlich eines Textmengenreduzierungsprozesses>
Im Folgenden wird ein anderes spezifisches Beispiel des Bearbeitungsprozesses einschließlich des Textmengenreduzierungsprozesses beschrieben.
15 veranschaulicht einen Fall, in dem der Benutzer A und der Benutzer B ein Gespräch unter Verwendung der Gesprächsunterstützungsvorrichtung 10 führen. Der Benutzer B ist jedoch nicht veranschaulicht. In 15 spricht der Benutzer A relativ kurze Sätze mit Unterbrechungen, wie etwa „Guten Morgen“ und „Wir treffen uns morgen um 10 an der Shinagawa Station“.
16 veranschaulicht ein Anzeigebeispiel von Sprachtexten auf der Anzeigeeinheit 43. Die Sprachtexte entsprechen den in 15 veranschaulichten Sprachäußerungen des Benutzers A. In dem Fall, in dem der Benutzer A relativ kurze Sätze mit Unterbrechung sagt, werden die den kurzen Sätzen entsprechenden Sprachtexte so angezeigt, dass die Sprachtexte in kurze Abschnitte aufgeteilt werden, wie in 16 veranschaulicht. Es ist zu beachten, dass in 16 die Sprachtexte so angezeigt werden, dass alle Sprachtexte mit Ausnahme von „Guten Morgen“ einem Textmengenreduzierungsprozess unterzogen werden, der Partikel und dergleichen entfernt, während Substantive und Verben behalten werden. Anders ausgedrückt: In dem Textmengenreduzierungsprozess gemäß dem spezifischen Beispiel werden Teile einer Sprachäußerung, die für das Verständnis der Bedeutung oder des Kontextes der Sprachtexte nicht wichtig sind, in geeigneter Weise weggelassen. Es ist zu beachten, dass Wörter, die weggelassen werden sollen, nicht auf die Teile der Sprachäußerung beschränkt sind. Es ist für den Benutzer möglich, alles, was weggelassen werden soll, entsprechend einzustellen.
Es ist zu beachten, dass anstelle der Entfernung von Partikeln und dergleichen, die die Bedeutung oder den Kontext der Sprachtexte nicht verändern, selbst wenn sie entfernt werden, es ebenso möglich ist, Partikel und dergleichen so anzuzeigen, dass sie weniger hervorgehoben werden als die Substantive, Verben und dergleichen, die sich auf die Bedeutung oder den Kontext der Sprachtexte beziehen. Anders ausgedrückt: Es ist möglich, die Sprachtexte so anzuzeigen, dass die Substantive, Verben und dergleichen stärker hervorgehoben werden als die Partikel und dergleichen.
17 veranschaulicht ein Anzeigebeispiel, in dem die Zeichengröße von Partikeln und dergleichen kleiner als die von Substantiven, Verben und dergleichen sind, die sich auf die Bedeutung oder den Kontext der Sprachtexte beziehen, sodass die Substantive, Verben und dergleichen auffälliger hervortreten.
Obwohl dies in den Zeichnungen nicht veranschaulicht ist, ist es auch möglich, Sprachtexte so anzuzeigen, dass Zeichen von Partikeln und dergleichen in hellen Farben und Zeichen von Substantiven, Verben und dergleichen in dunklen Farben angezeigt werden. Alternativ ist es auch möglich, Sprachtexte so anzuzeigen, dass die Helligkeit von Zeichen von Partikeln und dergleichen niedriger ist und die Helligkeit von Zeichen von Substantiven, Verben und dergleichen höher ist. Alternativ ist es auch möglich, Sprachtexte so anzuzeigen, dass die Strichstärke von Zeichen von Partikeln und dergleichen dünner ist und die Strichstärke von Zeichen von Substantiven, Verben und dergleichen dicker ist.
Wie vorstehend beschrieben, liest der Benutzer B nicht die unauffälligen Partikel und dergleichen, sondern liest die auffälligen Substantive, Verben und dergleichen, wenn Sprachtexte so angezeigt werden, dass die Partikel und dergleichen, die die Bedeutung der Sprachtexte nicht beeinflussen, unauffällig sind und die Substantive, Verben und dergleichen, die die Bedeutung des Sprachtextes beeinflussen, auffällig sind. Daher wird die Bedeutung der Sprachtexte nicht verändert, und es ist möglich, die Zeit zu verkürzen, die der Benutzer B benötigt, um die Sprachtexte zu lesen.
<Spezifisches Beispiel eines Bearbeitungsvorgangs, der von der Bearbeitungseinheit 36 durchgeführt wird>
Im Folgenden wird ein Bearbeitungsprozess beschrieben. Der Bearbeitungsprozess entspricht einer Tastenbetätigung, die von einem Benutzer in Bezug auf einen auf einem Bildschirm angezeigten Sprachtext durchgeführt wird.
18 veranschaulicht ein Anzeigebeispiel, in dem die Löschtasten 111 in Verbindung mit den jeweiligen auf der Anzeigeeinheit 22 für den Benutzer A angezeigten Sprachtexten vorbereitet werden. Es ist zu beachten, dass die jeweiligen in 18 veranschaulichten Sprachtexte den Sprachäußerungen des Benutzers A entsprechen, die in 15 veranschaulicht werden.
Beispielsweise ist in dem Fall, in dem der Benutzer A einen falsch erkannten Sprachtext als ein Spracherkennungsergebnis seiner Sprachäußerung findet, der Benutzer A in der Lage, den Sprachtext durch Betätigen der Löschtaste 111 zu löschen.
In dem in 18 veranschaulichten Anzeigebeispiel wird ein Wort, das als „Shinagawa“ erkannt werden sollte, falsch als „Jinagawa“ erkannt. In diesem Fall wird ein Sprachtext, der „Jinagawa“ enthält, gelöscht, wenn der Benutzer A, der die Falscherkennung gefunden hat, die Löschtaste 111 betätigt. Anschließend erfährt die Falscherkennungslerneinheit 33, dass der Sprachtext, der „Jinagawa“ enthält, gelöscht wird (dies wird in der Falscherkennungsliste 34 registriert).
Anders ausgedrückt: Durch Betätigen der Löschtaste 111 ist der Benutzer A in der Lage, einen falsch erkannten Sprachtext oder einen Sprachtext, der einer Sprachäußerung entspricht, die auf einem Versprecher beruht, zu löschen.
Es ist zu beachten, dass es auch möglich ist, die Löschtasten 111 auf der Anzeigeeinheit 43 für den Benutzer B vorzubereiten. In diesem Fall kann der Benutzer B beispielsweise einen bereits gelesenen Sprachtext durch Betätigen der Löschtaste 111 löschen.
In dem Fall, in dem der Benutzer B die Löschtaste 111 betätigt und der Sprachtext gelöscht wird, wird der Benutzer A über das Löschen informiert. Dementsprechend kann der Benutzer A sich vergewissern, dass der Benutzer B den gelöschten Sprachtext bereits gelesen hat. In dem Fall, in dem der Benutzer A die Löschtaste 111 betätigt und ein Sprachtext gelöscht wird, kann andererseits der Benutzer B über die Löschung benachrichtigt werden. Ein solches Benachrichtigungsverfahren kann eine Bildschirmanzeige oder eine Tonausgabe verwenden.
19 veranschaulicht ein Anzeigebeispiel, in dem die Erneut-Sprechen-Tasten 112 in Verbindung mit den jeweiligen auf der Anzeigeeinheit 22 für den Benutzer A angezeigten Sprachtexten vorbereitet werden. Zu beachten ist, dass die jeweiligen in 19 veranschaulichten Sprachtexte den in 15 veranschaulichten Sprachäußerungen des Benutzers A entsprechen.
Beispielsweise ist in dem Fall, in dem der Benutzer A einen falsch erkannten Sprachtext als ein Spracherkennungsergebnis seiner Sprachäußerung findet, der Benutzer A in der Lage, den Sprachtext durch Betätigen der Erneut-Sprechen-Taste 112 umzuformulieren (erneut zu sagen).
In dem in 19 veranschaulichten Anzeigebeispiel wird ein Wort, das als „Shinagawa“ erkannt werden sollte, falsch als „Jinagawa“ erkannt. In diesem Fall betätigt der Benutzer A, der die Falscherkennung gefunden hat, die Erneut-Sprechen-Taste 112 und sagt erneut „Wir treffen uns um 10 morgen an der Shinagawa Station“ oder dergleichen. Dementsprechend wird der derzeit angezeigte Sprachtext „Wir treffen uns um 10 morgen an der Jinagawa Station“ durch einen Sprachtext ersetzt, der als Spracherkennungsergebnis der erneuten Sprachäußerung („Wir treffen uns um 10 morgen an der Shinagawa Station“, wenn richtig erkannt) erhalten wird. Des Weiteren erfährt die Falscherkennungslerneinheit 33, dass der Sprachtext, der „Jinagawa“ enthält, ersetzt wird (dies wird in der Falscherkennungsliste 34 registriert).
Anders ausgedrückt: Durch Betätigen der Erneut-Sprechen-Taste 112 ist der Benutzer A in der Lage, die Anzeige eines falsch erkannten Sprachtextes oder eines Sprachtextes, der einer Sprachäußerung entspricht, die auf einem Versprecher beruht, durch einen Sprachtext an derselben Position zu ersetzen, der einer erneuten Sprachäußerung entspricht.
Es ist zu beachten, dass obwohl der Benutzer A den gesamten Sprachtext in dem vorstehend beschriebenen Beispiel erneut sagt (in dem vorstehend beschriebenen Beispiel „wir treffen uns morgen...“), es für den Benutzer A jedoch auch möglich ist, ein Wort auszuwählen (wie etwa „Jinagawa“) und nur dieses Wort umzuformulieren.
Des Weiteren ist es auch möglich, die Erneut-Sprechen-Tasten 112 auf der Anzeigeeinheit 43 für den Benutzer B vorzubereiten. In diesem Fall wird eine Benachrichtigung ausgegeben, dass der Benutzer A zum erneuten Sprechen aufgefordert wird, wenn der Benutzer B die Erneut-Sprechen-Taste 112 betätigt. Ein solches Benachrichtigungsverfahren kann eine Bildschirmanzeige oder eine Tonausgabe verwenden.
20 veranschaulicht ein Anzeigebeispiel, in dem die Tasten zur Registrierung ausgeschlossener Wörter 113 in Verbindung mit den jeweiligen auf der Anzeigeeinheit 22 für den Benutzer A angezeigten Sprachtexten vorbereitet werden. Zu beachten ist, dass die jeweiligen in 20 veranschaulichten Sprachtexte den in 15 veranschaulichten Sprachäußerungen des Benutzers A entsprechen.
Beispielsweise ist in dem Fall, in dem der Benutzer A einen falsch erkannten Sprachtext als ein Spracherkennungsergebnis seiner Sprachäußerung findet und der Benutzer A dasselbe Falscherkennungsergebnis nicht erneut erscheinen lassen möchte, der Benutzer A in der Lage, die Taste zur Registrierung ausgeschlossener Wörter 113 zu betätigen, um das Falscherkennungsergebnis als ein ausgeschlossenes Wort zu registrieren.
In dem in 20 veranschaulichten Anzeigebeispiel wird eine bestimmte Sprachäußerung des Benutzers A falsch als „Porno-Comics“ erkannt, und die Wörter „Porno-Comics“ werden angezeigt. Wenn der Benutzer A nicht möchte, dass diese Wörter erneut erscheinen, und die Tasten zur Registrierung ausgeschlossener Wörter 113 betätigt, wird der angezeigte Sprachtext „Porno-Comics“ gelöscht und die Wörter „„Porno-Comics“ werden von der Falscherkennungslerneinheit 33 als ein ausgeschlossenes Wort (das in der Falscherkennungsliste 34 registriert wird) registriert.
Anders ausgedrückt: Durch Betätigen der Taste zur Registrierung ausgeschlossener Wörter 113 ist der Benutzer A in der Lage, ein Wort als ein ausgeschlossenes Wort zu registrieren, das von einer falschen Erkennung herrührt und das der Benutzer nicht erneut anzeigen möchte.
Es ist zu beachten, dass es auch möglich ist, die Tasten zur Registrierung ausgeschlossener Wörter 113 auf der Anzeigeeinheit 43 für den Benutzer B vorzubereiten. In diesem Fall ist auch der Benutzer B in der Lage, die Taste zur Registrierung ausgeschlossener Wörter 113 zu betätigen, um ein Wort als ein ausgeschlossenes Wort zu registrieren, das der Benutzer B nicht erneut anzeigen möchte.
21 veranschaulicht ein Anzeigebeispiel, in dem die Worthinzufügungstasten 114 in Verbindung mit den jeweiligen auf der Anzeigeeinheit 22 für den Benutzer A angezeigten Sprachtexten vorbereitet werden. Zu beachten ist, dass die jeweiligen in 21 veranschaulichten Sprachtexte den in 15 veranschaulichten Sprachäußerungen des Benutzers A entsprechen.
In dem Fall, in dem der Benutzer A der Meinung ist, dass es besser ist, dem als Spracherkennungsergebnis erhaltenen Sprachtext, beispielsweise einer Frage, ein Fragezeichen (?) hinzuzufügen, um das Verständnis des Benutzers B zu erhöhen, ist der Benutzer A in der Lage, das Fragezeichen durch Betätigen der Worthinzufügungstaste 114 zu dem Sprachtext hinzuzufügen.
21 veranschaulicht das Anzeigebeispiel, nachdem die Worthinzufügungstaste 114 bereits betätigt wurde. Das Fragezeichen wurde bereits zu dem Sprachtext „Hast du heute Mittag das Medikament eingenommen“ hinzugefügt, der einer Sprachäußerung des Benutzers A entspricht. In diesem Fall wird das Hinzufügen des Fragezeichens zu dem Sprachtext „Hast du heute Mittag das Medikament eingenommen“ von der Worthinzufügungslerneinheit 37 registriert.
Anders ausgedrückt: Durch Betätigen der Worthinzufügungstaste 114 ist der Benutzer A in der Lage, das Fragezeichen zu dem Sprachtext hinzuzufügen.
Des Weiteren ist es auch möglich, die Worthinzufügungstasten 114 auf der Anzeigeeinheit 43 für den Benutzer B vorzubereiten. In diesem Fall ist der Benutzer B in der Lage, ein Wort oder dergleichen auszuwählen, das in einem angezeigten Sprachtext enthalten ist, die Worthinzufügungstaste 114 zu betätigen und den Benutzer A in dem Fall, dass der Benutzer B die Bedeutung des angezeigten Sprachtextes nicht versteht, oder in dem Fall, in dem der Benutzer B weitere Einzelheiten zum Inhalt erfahren möchte, nach der Bedeutung des Wortes oder dergleichen zu fragen.
Zu beachten ist, dass der Benutzer ein Zeichen oder dergleichen auswählen kann, das hinzugefügt werden soll, wenn die Worthinzufügungstaste 114 betätigt wird, sodass ein Emoji, ein Emoticon, ein anderes Zeichen als „?“ oder dergleichen hinzugefügt wird.
In der vorstehenden Beschreibung werden die Löschtasten 111, die Erneut-Sprechen-Tasten 112, die Tasten zur Registrierung ausgeschlossener Wörter 113 und die Worthinzufügungstasten 114 einzeln angezeigt. Es ist jedoch auch möglich, die Löschtasten 111, die Erneut-Sprechen-Tasten 112, die Tasten zur Registrierung ausgeschlossener Wörter 113 und die Worthinzufügungstasten 114 gleichzeitig anzuzeigen.
Alternativ ist es anstelle der Anzeige der jeweiligen Tasten auch möglich, eine vorbestimmte Berührungsbetätigung (beispielsweise eine Tippbetätigung, Doppeltippbetätigung, lange Tippbetätigung, Streichbetätigung und dergleichen in dem Fall, in dem die Operationseingabeeinheit 23 ein Berührungsbildschirm ist) einer Löschanweisung, einer Anweisung zum erneuten Sprechen, einer Registrierungsanweisung für gesperrte Wörter und einer Worthinzufügungsanweisung zuzuweisen. Alternativ ist es anstelle der Anzeige der jeweiligen Tasten auch möglich, die von dem Benutzer A oder dem Benutzer B durchgeführte dreidimensionale Gestenbetätigung der Löschanweisung, der Anweisung zum erneuten Sprechen, der Registrierungsanweisung für gesperrte Wörter und der Worthinzufügungsanweisung zuzuweisen. Hier kann die Berührungsbetätigung als zweidimensionale Gestenbetätigung angesehen werden. Des Weiteren kann die dreidimensionale Gestenbetätigung unter Verwendung einer in einem Beschleunigungssensor oder einem Kreiselsensor enthaltenen Steuerung durchgeführt werden oder kann unter Verwendung eines Bilderkennungsergebnisses von Aktionen der Benutzer durchgeführt werden. In dieser Beschreibung können die Berührungsbetätigung und die dreidimensionale Gestenbetätigung mitunter einfach als „Gestenbetätigung“ bezeichnet werden.
Zu beachten ist, dass in dem Fall, in dem eine tragbare Ausrüstung, insbesondere eine am Kopf angebrachte Anzeigevorrichtung verwendet wird, ein Nicken oder eine Kopfbewegung als Gestenbetätigung zugewiesen werden kann. In dem Fall, in dem die tragbare Ausrüstung eine Blickerkennungsfunktion beinhaltet, kann die tragbare Ausrüstung eine körperliche Aktion des Benutzers B als Gestenbetätigung erlernen, wobei die körperliche Aktion einer Bewegung des Blicks des Benutzers B in Bezug auf einen angezeigten Sprachtext entspricht. Gemäß einer solchen Konfiguration ist es möglich, die Genauigkeit der Erkennung, ob ein Benutzer einen Sprachtext bereits gelesen hat, auf der Grundlage einer Gestenbetätigung zu erhöhen.
Alternativ ist es anstelle der Anzeige der jeweiligen Tasten auch möglich, vorbestimmte Zauberwörter, die von dem Benutzer A oder dem Benutzer B gesprochen werden, der Löschanweisung, der Anweisung zum erneuten Sprechen, der Registrierungsanweisung für gesperrte Wörter und der Worthinzufügungsanweisung zuzuweisen.
Des Weiteren ist es auch möglich, die Anzeige eines Sprachtextes, der einer Sprachäußerung des Benutzers A entspricht, in dem Fall zu beenden, in dem der Benutzer A eine vorbestimmte Geste ausführt, die der Löschanweisung zugewiesen ist, oder ein vorbestimmtes Zauberwort unmittelbar nach der Sprachäußerung sagt.
Hier kann das Beenden der Anzeige eines Sprachtextes das Beenden der Anzeige eines in der Analyse befindlichen Textes einschließen, oder anders gesagt, das Beenden eines Anzeigeprozesses eines Textes, der noch nicht angezeigt wurde. Des Weiteren ist es in dem Fall des Beendens der Anzeige eines Sprachtextes auch möglich, Textinformation zu analysieren und einen ganzen Satz, der unmittelbar vor einer Löschanweisung gesagt wurde, zu löschen. Daher ist es möglich, Textinformation zu löschen, die durch eine Stimmeingabe erhalten werden, die der Benutzer A versehentlich eingegeben hat (wie etwa ein Selbstgespräch oder ein Füllwort). Des Weiteren kann in dem Fall, in dem der Benutzer A eine vorbestimmte Geste macht oder ein vorbestimmtes Zauberwort sagt, die darstellen, dass der Benutzer A keine Stimmeingabe vor dem Sprechen eingibt, die Informationsverarbeitungseinheit 30 die Anzeige der Stimmeingabe unmittelbar nach der vorbestimmten Geste oder des vorgegebenen Zauberworts verbieten. Folglich ist es für den Benutzer A möglich, willkürlich einen Zustand auszuwählen, der in der Lage ist, eine Sprachäußerung zu verdecken, und es ist möglich, die Anzeige einer unbeabsichtigten Sprachäußerung zu unterdrücken.
<Anwendungsbeispiel der Gesprächsunterstützungsvorrichtung 10>
Im Folgenden wird ein Anwendungsbeispiel der Gesprächsunterstützungsvorrichtung 10 beschrieben.
22 veranschaulicht ein Beispiel einer Einsatzbedingung, in der drei oder mehr Personen die Gesprächsunterstützungsvorrichtung 10 verwenden dürfen. In 22 wird die Gesprächsunterstützungsvorrichtung 10 zur Unterstützung der Gesprächsführung zwischen den Benutzern A1, A2 und A3, die keine Hörschwierigkeiten haben, und einem Benutzer B, der Hörschwierigkeiten hat, verwendet.
Die Benutzer A1 bis A3 verwenden ihre eigenen Smartphones 50 als Benutzer A. Die Smartphones 50, die sich in einem vorbestimmten Entfernungsbereich befinden, werden gruppiert, und Sprachtexte, die den von den jeweiligen Smartphones 50 erfassten Sprachäußerungen entsprechen, werden alle zusammen auf der Anzeigeeinheit 43 für den Benutzer B angezeigt.
Es ist zu beachten, dass beispielsweise ein Verfahren zum Erkennen der Smartphones 50, die sich in dem vorbestimmten Entfernungsbereich befinden, derart implementiert ist, dass die jeweiligen Smartphones 50 vorbestimmte Schallwellen für einander ausgeben und jedes der Smartphones 50 die Schallwellen erfasst und analysiert, die von den anderen Smartphones 50 ausgegeben werden. Alternativ ist es beispielsweise auch möglich, die jeweiligen Positionen der Smartphones 50 festzulegen, indem die Smartphones 50 in einem Bild erkannt werden, das durch eine an der Decke installierte Kamera 110 aufgenommenen wird.
Die Anzeigeeinheit 43 für den Benutzer B zeigt die den Sprachäußerungen der Benutzer A1 bis A3 entsprechenden Sprachtexte in chronologischer Reihenfolge an. Des Weiteren zeigt die Anzeigeeinheit 43 auch Sprecherkennzeichnungen 121 an, die die sprechenden Personen in Verbindung mit den jeweiligen Sprachtexten darstellen, sodass der Benutzer B erkennen kann, wer von den Benutzern A1 bis A3 die angezeigten Sprachtexte erstellt hat.
23 veranschaulicht ein anderes Verfahren zum Anzeigen von Sprachtexten in Verbindung mit den Benutzern A1 bis A3, sodass der Benutzer B unterscheiden kann, welcher von den Benutzern A1 bis A3 die angezeigten Sprachtexte erstellt hat. In 23 wird eine Sprachrichtungsanzeigemarke 131 auf dem Bildschirm angezeigt. Die Sprachrichtungsanzeigemarke 131 zeigt eine Richtung einer sprechenden Person in einem Zustand an, in dem der Benutzer B die Anzeigeeinheit 43 betrachtet.
Unter Bezugnahme auf 23 wird ein Sprachtext, der einer Sprachäußerung des Benutzers A3 entspricht, auf dem Bildschirm angezeigt, wobei sich der Benutzer A3 in dem Zustand, in dem der Benutzer B die Anzeigeeinheit 43 betrachtet, auf der rechten Seite befindet. Daher wird die Sprachrichtungsanzeigemarke 131 auf der rechten Seite des Bildschirms der Anzeigeeinheit 43 angezeigt.
Es ist zu beachten, dass in dem Zustand, bei dem der Benutzer B die Anzeigeeinheit 43 betrachtet, es beispielsweise möglich ist, relative Richtungen der Benutzer A1, A2 und A3 aus einem Bild zu ermitteln, das von der an einer Decke installierten Kamera 110 erhalten wird.
24 zeigt einen Zustand, in dem die Gesprächsunterstützungsvorrichtung 10 von dem Benutzer A und dem Benutzer B verwendet wird, die sich über einen Tisch hinweg ansehen. In diesem Fall kann der Projektor 80 die Bildschirme der Anzeigeeinheit 22 für den Benutzer A und die Anzeigeeinheit 43 für den Benutzer B gleichzeitig auf den Tisch projizieren. Zu diesem Zeitpunkt wird der Bildschirm der Anzeigeeinheit 22 für den Benutzer A derart angezeigt, dass es für den Benutzer A einfach ist, den Bildschirm zu sehen, und der Bildschirm der Anzeigeeinheit 43 für den Benutzer B wird derart angezeigt, dass es für den Benutzer B einfach ist, den Bildschirm zu sehen.
<Rückmeldung an den Benutzer A, der die sprechende Person ist>
25 zeigt ein Beispiel einer Rückmeldung an den Benutzer A, der eine sprechende Person unter Benutzern ist, die die Gesprächsunterstützungsvorrichtung 10 verwenden.
In dem Fall, in dem die Anzeige der Anzeigeeinheit 43 mit Sprachtexten bedeckt ist, wird eine Rückmeldung zum Anweisen des Benutzers A, der eine sprechende Person ist, gegeben, um die Sprechgeschwindigkeit zu verlangsamen, wie etwa „langsam“, „der Bildschirm ist voll“, „langsamer sprechen“, „einen Moment warten“, „einmal unterbrechen“ durch das Anzeigen von Zeichen oder Tonausgabe durch das Smartphone 50 oder dergleichen unter der Steuerung der Rückmeldungssteuereinheit 40.
Es ist zu beachten, dass es auch möglich ist, einen Indikator auf einem Bildschirm anzuzeigen oder einen Alarmton oder dergleichen in Übereinstimmung mit der Sprechgeschwindigkeit oder der Länge der Unterbrechungen einer Sprachäußerung des Benutzers A auszugeben.
In dem Fall, in dem der Benutzer A mit optimaler Geschwindigkeit und Unterbrechungen für die Spracherkennung oder Bildschirmanzeige spricht, können Punkte an den Benutzer A vergeben werden, und der Benutzer A kann in Übereinstimmung mit den vergebenen Punkten einige Servicevorteile erhalten oder im Rang hochgestuft werden.
<Anderes Anwendungsbeispiel>
In der vorstehend beschriebenen Ausführungsform wird die Gesprächsunterstützungsvorrichtung 10 zur Unterstützung der Gesprächsführung zwischen dem Benutzer A, der keine Hörschwierigkeiten hat, und dem Benutzer B, der Hörschwierigkeiten hat, verwendet. Gemäß der vorliegenden Technologie ist es jedoch beispielsweise auch möglich, die Gesprächsunterstützungsvorrichtung 10 zur Unterstützung der Gesprächsführung zwischen Personen zu verwenden, die unterschiedliche Sprachen sprechen. In diesem Fall ist es ausreichend, wenn nach dem Spracherkennungsprozess ein Übersetzungsprozess durchgeführt wird.
Darüber hinaus ist es auch möglich, dass die Gesprächsunterstützungsvorrichtung 10 ein Bewegtbild des Munds von Benutzer A erfasst, wenn der Benutzer A spricht, und einen Sprachtext und das Bewegtbild des Munds von Benutzer A anzeigt. In diesem Fall ist es möglich, den Sprachtext und das Bewegtbild des Munds von Benutzer A so anzuzeigen, dass der Sprachtext und die Bewegung des Munds miteinander synchronisiert werden. Auf diese Weise ist es beispielsweise möglich, die Gesprächsunterstützungsvorrichtung 10 zum Lernen des Lippenlesens zu verwenden.
Des Weiteren ist es auch möglich, dass die Gesprächsunterstützungsvorrichtung 10 Sprachäußerungen des Benutzers A aufzeichnet, sie in Verbindung mit Sprachtexten speichert, die als Spracherkennungsergebnisse erhalten werden, und die gespeicherten Ergebnisse später reproduziert und wieder anzeigt.
Darüber hinaus ist es auch möglich, nicht nur Echtzeit-Sprachäußerungen des Benutzers A in die Gesprächsunterstützungsvorrichtung 10 einzugeben, sondern auch aufgenommene Stimmen in die Gesprächsunterstützungsvorrichtung 10 einzugeben.
<Beispiel einer anderen Konfiguration der Informationsverarbeitungseinheit 30>
Die vorstehend beschriebene Reihe von Prozessen kann durch Hardware oder durch Software durchgeführt werden. Wenn die Reihe von Prozessen durch Software durchgeführt wird, wird ein Programm, das die Software bildet, auf einem Computer installiert. Beispiele für den Computer beinhalten einen Computer, der in dedizierte Hardware eingebaut ist, und einen Universalcomputer, der verschiedene Arten von Funktionen durch Installieren von verschiedenen Arten von Programmen durchführen kann. Das vorstehend beschriebene Smartphone 50 gemäß dem zweiten Konfigurationsbeispiel entspricht dem Computer.
26 ist ein Blockdiagramm, das ein Konfigurationsbeispiel der Hardware eines Computers veranschaulicht, der die vorstehend beschriebene Reihe von Prozessen mit einem Programm durchführt.
In diesem Computer 200 sind eine zentrale Verarbeitungseinheit (CPU) 201, ein Nur-Lese-Speicher (ROM) 202 und ein Direktzugriffsspeicher (RAM) 203 über einen Bus 204 gemeinsam miteinander verbunden.
Ferner ist eine Eingabe/Ausgabe-Schnittstelle 205 mit dem Bus 204 verbunden. Mit der Eingabe/Ausgabeschnittstelle 205 sind eine Eingabeeinheit 206, eine Ausgabeeinheit 207, eine Speichereinheit 208, eine Kommunikationseinheit 209 und ein Laufwerk 210 verbunden.
Die Eingabeeinheit 206 beinhaltet eine Tastatur, eine Maus, ein Mikrofon und dergleichen. Die Ausgabeeinheit 207 beinhaltet eine Anzeigevorrichtung, einen Lautsprecher und dergleichen. Die Speichereinheit 208 beinhaltet eine Festplatte, einen nichtflüchtigen Speicher und dergleichen. Die Kommunikationseinheit 209 beinhaltet eine Netzwerkschnittstelle und dergleichen. Das Laufwerk 210 steuert einen Wechseldatenträger 211 ab, wie etwa eine Magnetplatte, eine optische Platte, eine magnetooptische Platte und einen Halbleiterspeicher.
In dem Computer 200, der wie vorstehend beschrieben konfiguriert ist, lädt die CPU 201 ein Programm, das zum Beispiel in der Speichereinheit 208 gespeichert ist, über die Eingabe/Ausgabe-Schnittstelle 205 und den Bus 204 in den RAM 203 und führt das Programm aus, wodurch die vorstehend beschriebene Reihe von Prozessen durchgeführt werden.
Beispielsweise können Programme, die von dem Computer 200 (CPU 201) ausgeführt werden sollen, aufgezeichnet und auf dem Wechseldatenträger 211 bereitgestellt werden, bei dem es sich um ein verpacktes Medium oder dergleichen handelt. Darüber hinaus können Programme über ein drahtgebundenes oder drahtloses Übertragungsmedium bereitgestellt werden, wie etwa ein lokales Netzwerk, das Internet und digitaler Satellitenrundfunk.
In dem Computer 200 können durch Anbringen des Wechseldatenträgers 211 an dem Laufwerk 210 Programme in der Speichereinheit 208 über die Eingabe/Ausgabe-Schnittstelle 205 installiert werden. Die Programme können auch von der Kommunikationseinheit 209 über ein drahtgebundenes oder drahtloses Übertragungsmedium empfangen und in der Speichereinheit 208 installiert werden. Des Weiteren können Programme vorab auf dem ROM 202 oder der Speichereinheit 208 installiert werden.
Zu beachten ist, dass ein Programm, das von dem Computer 200 ausgeführt wird, ein Programm sein kann, in dem Prozesse chronologisch in einer Zeitreihe in der hierin beschriebenen Reihenfolge ausgeführt werden, oder es kann sich um ein Programm handeln, in dem Prozesse parallel oder zu einem erforderlichen Zeitpunkt ausgeführt werden, wie etwa, wenn die Prozesse aufgerufen werden.
Zu beachten ist, dass Ausführungsformen der vorliegenden Offenbarung nicht auf die oben beschriebenen Ausführungsformen beschränkt sind und verschiedene Änderungen auftreten können, sofern sie innerhalb des Schutzumfangs der vorliegenden Offenbarung liegen.
Zusätzlich kann die vorliegende Technologie auch wie folgt konfiguriert sein.

(1) Eine Informationsverarbeitungsvorrichtung, die beinhaltet:
- eine Schallerfassungseinheit, die konfiguriert ist, um eine Schallinformation eines ersten Benutzers zu erfassen, die in eine Schalleingabevorrichtung eingegeben wird; und
- eine Anzeigesteuereinheit, die konfiguriert ist, um die Anzeige einer Textinformation auf einer Anzeigevorrichtung für einen zweiten Benutzer zu steuern, wobei die Textinformation der erfassten Schallinformation entspricht,
- bei der die Anzeigesteuereinheit eine Steuerung in Bezug auf die angezeigte Menge der Textinformation auf der Grundlage von mindestens einer angezeigten Menge der Textinformation auf der Anzeigevorrichtung oder der eingegebenen Menge der Schallinformation, die durch die Schalleingabevorrichtung eingegeben wird, durchführt.
(2) Die Informationsverarbeitungsvorrichtung gemäß (1), bei der die Anzeigesteuereinheit die angezeigte Menge der Textinformation in einem Fall reduziert, in dem die angezeigte Menge der Textinformation eine vorbestimmte Menge oder mehr ist.
(3) Die Informationsverarbeitungsvorrichtung gemäß (1) oder (2), bei der die Anzeigesteuereinheit die angezeigte Menge der Textinformation durch Reduzieren der angezeigten Menge eines vorbestimmten Teils der Sprachäußerung, die in der Textinformation enthalten ist, reduziert.
(4) Die Informationsverarbeitungsvorrichtung gemäß einem beliebigen von (1) bis (3), bei der die Anzeigesteuereinheit die angezeigte Menge der Textinformation auf der Grundlage einer vorbestimmten Operation reduziert, die von dem ersten Benutzer oder dem zweiten Benutzer durchgeführt wird.
(5) Die Informationsverarbeitungsvorrichtung gemäß (4), bei der die vorbestimmte Operation eine erste Operation beinhaltet, die von dem ersten Benutzer oder dem zweiten Benutzer durchgeführt wird, und die Anzeigesteuereinheit die angezeigte Menge der Textinformation reduziert und dann bewirkt, dass die Anzeige der Textinformation auf der Grundlage der ersten Operation gelöscht wird.
(6) Die Informationsverarbeitungsvorrichtung gemäß (5), bei der die vorbestimmte Operation eine zweite Operation beinhaltet, die von dem ersten Benutzer oder dem zweiten Benutzer durchgeführt wird, und die Anzeigesteuereinheit bewirkt, dass die Anzeige der Textinformation gelöscht wird, und dann bewirkt, dass die gelöschte Textinformation erneut auf der Anzeigevorrichtung auf der Grundlage der zweiten Operation angezeigt wird.
(7) Die Informationsverarbeitungsvorrichtung gemäß einem beliebigen von (1) bis (6), bei der die Anzeigesteuereinheit mindestens einen von einem Zeilenumbruch oder einem Seitenumbruch in Bezug auf die Anzeige der Textinformation gemäß einem Analyseergebnis der Textinformation steuert.
(8) Die Informationsverarbeitungsvorrichtung gemäß einem beliebigen von (1) bis (7), die ferner beinhaltet eine Benachrichtigungseinheit, die konfiguriert ist, um einen von dem ersten Benutzer und dem zweiten Benutzer über eine Information zu benachrichtigen, die angibt, dass eine Operation im Zusammenhang mit der Textinformation in einem Fall durchgeführt wurde, in dem der andere von dem ersten Benutzer und dem zweiten Benutzer die Operation im Zusammenhang mit der Textinformation durchgeführt hat.
(9) Die Informationsverarbeitungsvorrichtung gemäß (8), bei der die Benachrichtigungseinheit einen von dem ersten Benutzer und dem zweiten Benutzer benachrichtigt, dass die angezeigte Menge der Textinformation in einem Fall reduziert wurde, in dem der andere von dem ersten Benutzer und dem zweiten Benutzer eine Operation zum Reduzieren der angezeigten Menge der Textinformation durchgeführt hat.
(10) Die Informationsverarbeitungsvorrichtung gemäß (8) oder (9), bei der die Benachrichtigungseinheit einen von dem ersten Benutzer und dem zweiten Benutzer benachrichtigt, dass die Anzeige der Textinformation in einem Fall gelöscht wurde, in dem der andere von dem ersten Benutzer und dem zweiten Benutzer eine Operation zum Löschen der Anzeige der Textinformation durchgeführt hat.
(11) Die Informationsverarbeitungsvorrichtung gemäß einem beliebigen von (8) bis (10), bei der die Benachrichtigungseinheit eine Benachrichtigung ausgibt, die den ersten Benutzer dazu auffordert, erneut zu sprechen, wenn der zweite Benutzer eine Operation zur Anforderung des erneuten Sprechens der auf der Anzeigevorrichtung angezeigten Textinformation durchgeführt hat.
(12) Die Informationsverarbeitungsvorrichtung gemäß einem beliebigen von (8) bis (11), bei der die Benachrichtigungseinheit den ersten Benutzer benachrichtigt, dass eine Anfrage nach der Textinformation in einem Fall empfangen wird, in dem der zweite Benutzer eine Operation des Stellens der Anfrage nach der auf der Anzeigevorrichtung angezeigten Textinformation durchgeführt hat.
(13) Die Informationsverarbeitungsvorrichtung gemäß einem beliebigen von (1) bis (12), bei der die Anzeigesteuereinheit die angezeigte Menge der Textinformation auf der Anzeigevorrichtung auf der Grundlage eines Erkennungsergebnisses reduziert, ob der zweite Benutzer die Textinformation bereits gelesen hat, wobei das Erkennungsergebnis auf mindestens einer Sprachäußerung oder einer Aktion des zweiten Benutzers basiert.
(14) Die Informationsverarbeitungsvorrichtung gemäß einem beliebigen von (1) bis (13), bei der die Anzeigesteuereinheit die Anzeige der Textinformation auf der Anzeigevorrichtung auf der Grundlage von mindestens einer Sprachäußerung oder einer Aktion des ersten Benutzers beendet.
(15) Die Informationsverarbeitungsvorrichtung gemäß einem beliebigen von (1) bis (14), die ferner eine Rückmeldungssteuereinheit beinhaltet, die konfiguriert ist, um eine Benachrichtigung über eine Rückmeldungsinformation an mindestens einen von dem ersten Benutzer oder dem zweiten Benutzer auf der Grundlage von mindestens einer von der angezeigten Menge der Textinformation auf der Anzeigevorrichtung oder der eingegebenen Menge der Schallinformation zu steuern.
(16) Die Informationsverarbeitungsvorrichtung gemäß (15), bei der die Rückmeldungsinformation eine Information ist, die den ersten Benutzer dazu auffordert, mindestens eine von der Sprechgeschwindigkeit oder der Unterbrechung der Sprachäußerung zu ändern.
(17) Die Informationsverarbeitungsvorrichtung gemäß (15) oder (16), bei der die Rückmeldungsinformation eine Information ist, die den zweiten Benutzer dazu auffordert, die auf der Anzeigevorrichtung angezeigte Textinformation zu lesen.
(18) Die Informationsverarbeitungsvorrichtung gemäß einem beliebigen von (1) bis (17), die ferner beinhaltet eine Spracherkennungseinheit, die konfiguriert ist, um die Schallinformation des ersten Benutzers in die Textinformation umzuwandeln, bei der die Spracherkennungseinheit in der Informationsverarbeitungsvorrichtung installiert ist oder auf einem Server installiert ist, der über das Internet verbunden ist.
(19) Ein Informationsverarbeitungsverfahren einer Informationsverarbeitungsvorrichtung, wobei das Informationsverarbeitungsverfahren beinhaltet:
- einen Schallerfassungsschritt des Erfassens, durch die Informationsverarbeitungsvorrichtung, einer Schallinformation eines ersten Benutzers, die in eine Schalleingabevorrichtung eingegeben wird; und
- einen Anzeigesteuerschritt des Steuerns, durch die Informationsverarbeitungsvorrichtung, der Anzeige einer Textinformation auf einer Anzeigevorrichtung für einen zweiten Benutzer, wobei die Textinformation der erfassten Schallinformation entspricht,
- bei der, in dem Anzeigesteuerschritt, die Steuerung in Bezug auf die angezeigte Menge der Textinformation auf der Grundlage von mindestens einer angezeigten Menge der Textinformation auf der Anzeigevorrichtung oder der eingegebenen Menge der Schallinformation, die durch die Schalleingabevorrichtung eingegeben wird, durchgeführt wird.
(20) Ein Informationsverarbeitungssystem, das beinhaltet:
- eine Schalleingabevorrichtung, die konfiguriert ist, um die Schallinformation eines ersten Benutzers zu erfassen;
- eine Anzeigesteuervorrichtung, die konfiguriert ist, um die Anzeige einer Textinformation zu steuern, die der erfassten Schallinformation entspricht; und
- eine Anzeigevorrichtung, die konfiguriert ist, um die Textinformation für einen zweiten Benutzer unter der Steuerung der Anzeigesteuervorrichtung anzuzeigen,
- bei der die Anzeigesteuervorrichtung eine Steuerung in Bezug auf die angezeigte Menge der Textinformation auf der Grundlage von mindestens einer angezeigten Menge der Textinformation auf der Anzeigevorrichtung oder der eingegebenen Menge der Schallinformation, die durch die Schalleingabevorrichtung eingegeben wird, durchführt.

Bezugszeichenliste

10: Gesprächsunterstützungsvorrichtung
21: Schallerfassungseinheit
22: Anzeigeeinheit
23: Operationseingabeeinheit
30: Informationsverarbeitungseinheit
31: Spracherkennungseinheit
32: Bilderkennungseinheit
33: Falscherkennungslerneinheit
34: Falscherkennungsliste
35: Analyseeinheit
36: Bearbeitungseinheit
37: Worthinzufügungslerneinheit
38: Anzeigewarteliste-Halteeinheit
39: Anzeigesteuereinheit
40: Rückmeldungssteuereinheit
41: Bildaufnahmeeinheit
42: Schallerfassungseinheit
43: Anzeigeeinheit
44: Operationseingabeeinheit
50: Smartphone
60: Tablet PC
80: Projektor
90: TV
100: Umhängemikrofon
110: Kamera
111: Löschtaste
112: Erneut-Sprechen-Taste
113: Tasten zur Registrierung ausgeschlossener Wörter 113
114: Worthinzufügungstaste
200: Computer
201: CPU

Claims

Informationsverarbeitungsvorrichtung, umfassend: eine Schallerfassungseinheit, die konfiguriert ist, um eine Schallinformation eines ersten Benutzers zu erfassen, die in eine Schalleingabevorrichtung eingegeben wird; und eine Anzeigesteuereinheit, die konfiguriert ist, um die Anzeige einer Textinformation auf einer Anzeigevorrichtung für einen zweiten Benutzer zu steuern, wobei die Textinformation der erfassten Schallinformation entspricht, wobei die Anzeigesteuereinheit eine Steuerung in Bezug auf die angezeigte Menge der Textinformation auf einer Grundlage von mindestens einer der angezeigten Menge der Textinformation auf der Anzeigevorrichtung oder der eingegebenen Menge der Schallinformation, die durch die Schalleingabevorrichtung eingegeben wird, durchführt.
Informationsverarbeitungsvorrichtung nach Anspruch 1, wobei die Anzeigesteuereinheit die angezeigte Menge der Textinformation in einem Fall reduziert, in dem die angezeigte Menge der Textinformation eine vorbestimmte Menge oder mehr ist.
Informationsverarbeitungsvorrichtung nach Anspruch 2, wobei die Anzeigesteuereinheit die angezeigte Menge der Textinformation durch Reduzieren der angezeigten Menge eines vorbestimmten Teils der Sprachäußerung, die in der Textinformation enthalten ist, reduziert.
Informationsverarbeitungsvorrichtung nach Anspruch 2, wobei die Anzeigesteuereinheit die angezeigte Menge der Textinformation auf einer Grundlage einer vorbestimmten Operation reduziert, die von dem ersten Benutzer oder dem zweiten Benutzer durchgeführt wird.
Informationsverarbeitungsvorrichtung nach Anspruch 4, wobei die vorbestimmte Operation eine erste Operation beinhaltet, die von dem ersten Benutzer oder dem zweiten Benutzer durchgeführt wird, und die Anzeigesteuereinheit die angezeigte Menge der Textinformation reduziert und dann bewirkt, dass die Anzeige der Textinformation auf einer Grundlage der ersten Operation gelöscht wird.
Informationsverarbeitungsvorrichtung nach Anspruch 5, wobei die vorbestimmte Operation eine zweite Operation beinhaltet, die von dem ersten Benutzer oder dem zweiten Benutzer durchgeführt wird, und die Anzeigesteuereinheit bewirkt, dass die Anzeige der Textinformation gelöscht wird, und dann bewirkt, dass die gelöschte Textinformation erneut auf der Anzeigevorrichtung auf einer Grundlage der zweiten Operation angezeigt wird.
Informationsverarbeitungsvorrichtung nach Anspruch 2, wobei die Anzeigesteuereinheit mindestens einen von einem Zeilenumbruch oder einem Seitenumbruch in Bezug auf die Anzeige der Textinformation gemäß einem Analyseergebnis der Textinformation steuert.
Informationsverarbeitungsvorrichtung nach Anspruch 1, ferner umfassend: eine Benachrichtigungseinheit, die konfiguriert ist, um einen von dem ersten Benutzer und dem zweiten Benutzer über eine Information zu benachrichtigen, die angibt, dass eine Operation im Zusammenhang mit der Textinformation in einem Fall durchgeführt wurde, in dem der andere von dem ersten Benutzer und dem zweiten Benutzer die Operation im Zusammenhang mit der Textinformation durchgeführt hat.
Informationsverarbeitungsvorrichtung nach Anspruch 8, wobei die Benachrichtigungseinheit einen von dem ersten Benutzer und dem zweiten Benutzer benachrichtigt, dass die angezeigte Menge der Textinformation in einem Fall reduziert wurde, in dem der andere von dem ersten Benutzer und dem zweiten Benutzer eine Operation zum Reduzieren der angezeigten Menge der Textinformation durchgeführt hat.
Informationsverarbeitungsvorrichtung nach Anspruch 8, wobei die Benachrichtigungseinheit einen von dem ersten Benutzer und dem zweiten Benutzer benachrichtigt, dass die Anzeige der Textinformation in einem Fall gelöscht wurde, in dem der andere von dem ersten Benutzer und dem zweiten Benutzer eine Operation zum Löschen der Anzeige der Textinformation durchgeführt hat.
Informationsverarbeitungsvorrichtung nach Anspruch 8, wobei die Benachrichtigungseinheit eine Benachrichtigung ausgibt, die den ersten Benutzer dazu auffordert, erneut zu sprechen, wenn der zweite Benutzer eine Operation zur Anforderung des erneuten Sprechens der auf der Anzeigevorrichtung angezeigten Textinformation durchgeführt hat.
Informationsverarbeitungsvorrichtung nach Anspruch 8, wobei die Benachrichtigungseinheit den ersten Benutzer benachrichtigt, dass eine Anfrage nach der Textinformation in einem Fall empfangen wird, in dem der zweite Benutzer eine Operation des Stellens der Anfrage nach der auf der Anzeigevorrichtung angezeigten Textinformation durchgeführt hat.
Informationsverarbeitungsvorrichtung nach Anspruch 1, wobei die Anzeigesteuereinheit die angezeigte Menge der Textinformation auf der Anzeigevorrichtung auf einer Grundlage eines Erkennungsergebnisses reduziert, ob der zweite Benutzer die Textinformation bereits gelesen hat, wobei das Erkennungsergebnis auf mindestens einer Sprachäußerung oder einer Aktion des zweiten Benutzers basiert.
Informationsverarbeitungsvorrichtung nach Anspruch 1, wobei die Anzeigesteuereinheit die Anzeige der Textinformation auf der Anzeigevorrichtung auf einer Grundlage von mindestens einer Sprachäußerung oder einer Aktion des ersten Benutzers beendet.
Informationsverarbeitungsvorrichtung nach Anspruch 1, ferner umfassend: eine Rückmeldungssteuereinheit, die konfiguriert ist, um eine Benachrichtigung über eine Rückmeldungsinformation an mindestens einen von dem ersten Benutzer oder dem zweiten Benutzer auf einer Grundlage von mindestens einer von der angezeigten Menge der Textinformation auf der Anzeigevorrichtung oder der eingegebenen Menge der Schallinformation zu steuern.
Informationsverarbeitungsvorrichtung nach Anspruch 15, wobei die Rückmeldungsinformation eine Information ist, die den ersten Benutzer dazu auffordert, mindestens eine von der Sprechgeschwindigkeit oder der Unterbrechung der Sprachäußerung zu ändern.
Informationsverarbeitungsvorrichtung nach Anspruch 15, wobei die Rückmeldungsinformation eine Information ist, die den zweiten Benutzer dazu auffordert, die auf der Anzeigevorrichtung angezeigte Textinformation zu lesen.
Informationsverarbeitungsvorrichtung nach Anspruch 1, ferner umfassend: eine Spracherkennungseinheit, die konfiguriert ist, um die Schallinformation des ersten Benutzers in die Textinformation umzuwandeln, wobei die Spracherkennungseinheit in der Informationsverarbeitungsvorrichtung installiert ist oder auf einem Server installiert ist, der über das Internet verbunden ist.
Informationsverarbeitungsverfahren einer Informationsverarbeitungsvorrichtung, das Informationsverarbeitungsverfahren umfassend: einen Schallerfassungsschritt des Erfassens, durch die Informationsverarbeitungsvorrichtung, einer Schallinformation eines ersten Benutzers, die in eine Schalleingabevorrichtung eingegeben wird; und einen Anzeigesteuerschritt des Steuerns, durch die Informationsverarbeitungsvorrichtung, der Anzeige einer Textinformation auf einer Anzeigevorrichtung für einen zweiten Benutzer, wobei die Textinformation der erfassten Schallinformation entspricht, wobei, in dem Anzeigesteuerschritt, die Steuerung in Bezug auf die angezeigte Menge der Textinformation auf einer Grundlage von mindestens einer der angezeigten Menge der Textinformation auf der Anzeigevorrichtung oder der eingegebenen Menge der Schallinformation, die durch die Schalleingabevorrichtung eingegeben wird, durchgeführt wird.
Informationsverarbeitungssystem, umfassend: eine Schalleingabevorrichtung, die konfiguriert ist, um die Schallinformation eines ersten Benutzers zu erfassen; eine Anzeigesteuervorrichtung, die konfiguriert ist, um die Anzeige einer Textinformation zu steuern, die der erfassten Schallinformation entspricht; und eine Anzeigevorrichtung, die konfiguriert ist, um die Textinformation für einen zweiten Benutzer unter der Steuerung der Anzeigesteuervorrichtung anzuzeigen, wobei die Anzeigesteuereinheit eine Steuerung in Bezug auf die angezeigte Menge der Textinformation auf einer Grundlage von mindestens einer der angezeigten Menge der Textinformation auf der Anzeigevorrichtung oder der eingegebenen Menge der Schallinformation, die durch die Schalleingabevorrichtung eingegeben wird, durchführt.